虫虫软件吧 关注:32贴子:156
  • 0回复贴,共1

虫虫软件文章分页采集功能介绍

只看楼主收藏回复


首先,编写好所有要采集的列表页网址、文章页网址、与及要提取的标题和正文的采集规则,直到可以正常采到文章为止,
这是前提,这里采到文章才能往下继续操作
然后打开一篇文章 例如:http://women.sohu.com/20121017/n354997047.shtml
发现有类似: 的分页才可以。
可以查看源代码:

找到 以 url 分开为分页 部分

要写对正则表达式哦

保存后就可以采集了!
采到的结果类:

后面数字是用来区别的。


IP属地:江西1楼2013-01-29 10:41回复