网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
08月14日漏签0天
vb吧 关注:156,093贴子:1,166,237
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 6回复贴,共1页
<<返回vb吧
>0< 加载中...

求助,用HTMLDocument捉取小说网站内容时获取到的数据被防爬虫了.

  • 只看楼主
  • 收藏

  • 回复
  • li877869885
  • 啥也不懂
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
正常在浏览器上打开网站右键查看代码时,小说内容是完整的.


  • li877869885
  • 啥也不懂
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
然后用HTMLDocument打开这个网站的url获取HTML源码的时候,有部分小说内容被替换了,


2025-08-14 15:20:29
广告
不感兴趣
开通SVIP免广告
  • li877869885
  • 啥也不懂
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
有大佬解释下吗,应该是被防爬虫了


  • li877869885
  • 啥也不懂
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
想知道是HTMLDocument 的缺陷还是什么


  • assial
  • API
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
现在html页面很多是动态生成的,也就浏览器解析js脚本然后动态的插入某些界面。然后里面的内容又是访问别的url加载过来的。
爬虫,你只会输入一个url,下载那个URL源码自然下载不完整。
爬虫还需要做的厉害点,能遍历别的url,还能组合内容,不过有一定的难度,对固定的网址做爬虫会简单点


  • oshi001
  • 钩子编程
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
有些确实就是次级网址的问题


  • 秋哲
  • 函数调用
    6
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
反爬机制了
记得带上可以证明你是普通浏览用户的有效信息


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 6回复贴,共1页
<<返回vb吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示