java吧 关注:1,246,109贴子:12,721,749
  • 4回复贴,共1
各位万能的吧友java大神,你们有java爬虫的教程么,最近有个项目,用httpClient和Jsoup抓取网页数据,但是我遇到了一些问题:
1.有些网页需要模拟登陆,识别4到6位的数字加汉字验证码,如果你们有牛逼的第三方框架或者自己封装的工具能解决那就nice了。
2.有些验证码是拖动式的,有些登陆还需要U盾,有些网页使用flash做的,不知道怎么抓取数据,这两个是最棘手的问题。
3.有些网页的模拟发送GET和POST请求时,有些传递的参数(用户名或者密码)被被加密了,不知道怎么解密,有些把URL重写了,反正有时候动辄就找不到传递的参数
还有其他问题暂时想不起了,其他小问题就不说了,望各位大神给出一些建议和行之有效的方法,谢谢!


IP属地:四川1楼2017-01-13 22:20回复
    针对各种网页我就不说了,心累啊


    IP属地:四川2楼2017-01-13 22:23
    回复
      我在线等待各位大神的回复喔!


      IP属地:四川3楼2017-01-13 22:25
      回复
        我之前做爬虫,用机器学习对验证码进行识别,但是有些网站验证码太奇葩也没好办法。
        另外爬电商记得勤换ip


        4楼2017-01-13 22:34
        收起回复