Web spider,spider是蜘蛛的意思,但是网络上是不可能有蜘蛛存在的,这是一个虚拟化形象化的概念,她表示在网络上查找数据,获取数据,下载数据,分析数据,对数据进行,抽取,清洗,筛选,等一系列的操作我们称为网络爬虫,这里面最核心的是有价值的数据,有价值的资源;
1:url;
2:把数据下载下来;
3:对数据进行分析;
4:抽取;清洗:储存;
我们来看一下基础的1和2;的操作吧
代码:把京东下载下来
有一些网站时不可以让你随便登录的;所以要用到模拟浏览器才能获取到数据;不然会报403;
解决方案:模拟浏览器:
获取成功