网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月20日
漏签
0
天
vb吧
关注:
156,179
贴子:
1,165,891
看贴
图片
吧主推荐
游戏
6
回复贴,共
1
页
<<返回vb吧
>0< 加载中...
求助,用HTMLDocument捉取小说网站内容时获取到的数据被防爬虫了.
只看楼主
收藏
回复
li877869885
啥也不懂
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
正常在浏览器上打开网站右键查看代码时,小说内容是完整的.
li877869885
啥也不懂
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
然后用HTMLDocument打开这个网站的url获取HTML源码的时候,有部分小说内容被替换了,
北京百度网讯科技有限公司
总是酸奶的功效与作用?来我们这里,为您量身定制治疗方案。
2025-02-20 12:57
广告
立即查看
li877869885
啥也不懂
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有大佬解释下吗,应该是被防爬虫了
li877869885
啥也不懂
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
想知道是HTMLDocument 的缺陷还是什么
assial
API
12
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
现在html页面很多是动态生成的,也就浏览器解析js脚本然后动态的插入某些界面。然后里面的内容又是访问别的url加载过来的。
爬虫,你只会输入一个url,下载那个URL源码自然下载不完整。
爬虫还需要做的厉害点,能遍历别的url,还能组合内容,不过有一定的难度,对固定的网址做爬虫会简单点
oshi001
钩子编程
15
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
有些确实就是次级网址的问题
秋哲
函数调用
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
反爬机制了
记得带上可以证明你是普通浏览用户的有效信息
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示