各位万能的吧友java大神,你们有java爬虫的教程么,最近有个项目,用httpClient和Jsoup抓取网页数据,但是我遇到了一些问题:
1.有些网页需要模拟登陆,识别4到6位的数字加汉字验证码,如果你们有牛逼的第三方框架或者自己封装的工具能解决那就nice了。
2.有些验证码是拖动式的,有些登陆还需要U盾,有些网页使用flash做的,不知道怎么抓取数据,这两个是最棘手的问题。
3.有些网页的模拟发送GET和POST请求时,有些传递的参数(用户名或者密码)被被加密了,不知道怎么解密,有些把URL重写了,反正有时候动辄就找不到传递的参数
还有其他问题暂时想不起了,其他小问题就不说了,望各位大神给出一些建议和行之有效的方法,谢谢!
1.有些网页需要模拟登陆,识别4到6位的数字加汉字验证码,如果你们有牛逼的第三方框架或者自己封装的工具能解决那就nice了。
2.有些验证码是拖动式的,有些登陆还需要U盾,有些网页使用flash做的,不知道怎么抓取数据,这两个是最棘手的问题。
3.有些网页的模拟发送GET和POST请求时,有些传递的参数(用户名或者密码)被被加密了,不知道怎么解密,有些把URL重写了,反正有时候动辄就找不到传递的参数
还有其他问题暂时想不起了,其他小问题就不说了,望各位大神给出一些建议和行之有效的方法,谢谢!