来,我想接个单!
爬虫方向:
1. 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
2. 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
3. 小说下载分布式爬虫。使用scrapy,Redis,MongoDB,实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,主要针对一个小说站点。
4. 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件
5. 百度mp3全站爬虫,使用redis支持断点续传。。
6. 爬取慕课网视频。
WEB方向
1. 类似CSDN博客网站,
a) 有登录注册版块, 用户版块, 博客展示版块, 留言版块, 搜索功能
b) 使用Python3.9+Django3.2+Bootstrap+MySQL+Redis
2. 网页聊天室
v:18672344705 (注明python ,谢谢!)
爬虫方向:
1. 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo
2. 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
3. 小说下载分布式爬虫。使用scrapy,Redis,MongoDB,实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,主要针对一个小说站点。
4. 一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件
5. 百度mp3全站爬虫,使用redis支持断点续传。。
6. 爬取慕课网视频。
WEB方向
1. 类似CSDN博客网站,
a) 有登录注册版块, 用户版块, 博客展示版块, 留言版块, 搜索功能
b) 使用Python3.9+Django3.2+Bootstrap+MySQL+Redis
2. 网页聊天室
v:18672344705 (注明python ,谢谢!)