求助,用HTMLDocument捉取小说网站内容时获取到的数据被防爬虫了.

正常在浏览器上打开网站右键查看代码时,小说内容是完整的.

然后用HTMLDocument打开这个网站的url获取HTML源码的时候,有部分小说内容被替换了,

不感兴趣

开通SVIP免广告

有大佬解释下吗,应该是被防爬虫了

想知道是HTMLDocument 的缺陷还是什么

现在html页面很多是动态生成的，也就浏览器解析js脚本然后动态的插入某些界面。然后里面的内容又是访问别的url加载过来的。
爬虫，你只会输入一个url，下载那个URL源码自然下载不完整。
爬虫还需要做的厉害点，能遍历别的url，还能组合内容，不过有一定的难度，对固定的网址做爬虫会简单点

有些确实就是次级网址的问题

反爬机制了
记得带上可以证明你是普通浏览用户的有效信息

下载贴吧APP
看高清直播、视频！

分享到: