php curl(http://curl.haxx. se)跑了一部动漫左右的时间,抓取了2014-2015的帖子,然后python jieba分词(https://github.com/fxsjy/jieba)得出了一些数据
需要数据库的可以联系我
概况
总共抓取了30200条数据,按最后回复者计算大概数据包含2014-2-27:2015-2-26的回复数、ti主题、主题作者信息,其中141条抓取失败
需要数据库的可以联系我
概况
总共抓取了30200条数据,按最后回复者计算大概数据包含2014-2-27:2015-2-26的回复数、ti主题、主题作者信息,其中141条抓取失败