爬虫原理

只看楼主
收藏
回复

左手记事本
默默无闻
1

Web spider，spider是蜘蛛的意思，但是网络上是不可能有蜘蛛存在的，这是一个虚拟化形象化的概念，她表示在网络上查找数据，获取数据，下载数据，分析数据，对数据进行，抽取，清洗，筛选，等一系列的操作我们称为网络爬虫，这里面最核心的是有价值的数据，有价值的资源；
1：url;
2：把数据下载下来；
3：对数据进行分析；
4：抽取；清洗：储存；
我们来看一下基础的1和2；的操作吧
代码：把京东下载下来
有一些网站时不可以让你随便登录的；所以要用到模拟浏览器才能获取到数据；不然会报403；
解决方案：模拟浏览器：
获取成功

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示

0回复贴，共1页

<<返回广信it学院吧

分享到:

日	一	二	三	四	五	六