23个Python爬虫开源项目代码--688IT编程网

23个Python爬⾍开源项⽬代码

今天为⼤家整理了23个Python爬⾍项⽬。整理的原因是，爬⾍⼊门简单快速，也⾮常适合新⼊门的⼩伙伴培养信⼼。所有链接指向GitHub，祝⼤家玩的愉快国内源代码网站

1、WechatSogou [1]– 爬⾍。

基于搜狗搜索的爬⾍接⼝，可以扩展成基于搜狗搜索的爬⾍，返回结果是列表，每⼀项均是具体信息字典。

github地址：

2、DouBanSpider [2]– ⾖瓣读书爬⾍。

可以爬下⾖瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可⽅便⼤家筛选搜罗，⽐如筛选评价⼈数>1000的⾼分书籍；可依据不同的主题存储到Excel不同的Sheet ，采⽤User Agent伪装为浏览器进⾏爬取，并加⼊随机延时来更好的模仿浏览器⾏为，避免爬⾍被封。

github地址：

3、zhihu_spider [3]– 知乎爬⾍。

此项⽬的功能是爬取知乎⽤户信息以及⼈际拓扑关系，爬⾍框架使⽤scrapy，数据存储使⽤mongo

github地址：

4、bilibili-user [4]– Bilibili⽤户爬⾍。

总数据数：20119918，抓取字段：⽤户id，昵称，性别，头像，等级，经验值，粉丝数，⽣⽇，地址，注册时间，签名，等级与经验值等。抓取之后⽣成B站⽤户数据报告。

github地址：

5、SinaSpider [5]– 新浪微博爬⾍。

主要爬取新浪微博⽤户的个⼈信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进⾏登录，可通过多账号登录来防⽌新浪的反扒。主要使⽤ scrapy 爬⾍框架。

github地址：

6、distribute_crawler [6]– ⼩说下载分布式爬⾍。

使⽤scrapy,Redis, MongoDB,graphite实现的⼀个分布式⽹络爬⾍，底层存储MongoDB集，分布式

使⽤Redis实现，爬⾍状态显⽰使⽤graphite 实现，主要针对⼀个⼩说站点。

github地址：

7、CnkiSpider [7]– 中国知⽹爬⾍。

设置检索条件后，执⾏src/CnkiSpider.py抓取数据，抓取数据存储在/data⽬录下，每个数据⽂件的第⼀⾏为字段名称。

github地址：

8、LianJiaSpider [8]– 链家⽹爬⾍。

爬取北京地区链家历年⼆⼿房成交记录。涵盖链家爬⾍⼀⽂的全部代码，包括链家模拟登录代码。

github地址：

9、scrapy_jingdong [9]– 京东爬⾍。

基于scrapy的京东⽹站爬⾍，保存格式为csv。

github地址：

10、QQ-Groups-Spider [10]– QQ 爬⾍。

批量抓取 QQ 信息，包括名称、号、⼈数、主、简介等内容，最终⽣成 XLS(X) / CSV 结果⽂件。

github地址：

11、wooyun_public[11]-乌云爬⾍。

乌云公开漏洞、知识库爬⾍和搜索。全部公开漏洞的列表和每个漏洞的⽂本内容存在MongoDB中，⼤概约2G内容；如果整站爬全部⽂本和图⽚作为离线查询，⼤概需要10G空间、2⼩时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使⽤了Flask作为web

server，bootstrap作为前端。

12、spider[12]– hao123⽹站爬⾍。

以hao123为⼊⼝页⾯，滚动爬取外链，收集⽹址，并记录⽹址上的内链和外链数⽬，记录title等信息，windows7 32位上测试，⽬前每24个⼩时，可收集数据为10万左右

13、findtrip [13]– 机票爬⾍（去哪⼉和携程⽹）。

Findtrip是⼀个基于Scrapy的机票爬⾍，⽬前整合了国内两⼤机票⽹站（去哪⼉ + 携程）。

14、163spider [14] – 基于requests、MySQLdb、torndb的⽹易客户端内容爬⾍

15、doubanspiders[15]– ⾖瓣电影、书籍、⼩组、相册、东西等爬⾍集

16、QQSpider [16]– QQ空间爬⾍，包括⽇志、说说、个⼈信息等，⼀天可抓取 400 万条数据。

17、baidu-music-spider [17]– 百度mp3全站爬⾍，使⽤redis⽀持断点续传。

18、tbcrawler[18]– 淘宝和天猫的爬⾍，可以根据搜索关键词，物品id来抓去页⾯的信息，数据存储在mongodb。

stockholm [19]– ⼀个股票数据（沪深）爬⾍和选股策略测试框架。根据选定的⽇期范围抓19、取所有沪深两市股票的⾏情数据。⽀持使⽤表达式定义选股策略。⽀持多线程处理。保存数据到JSON⽂件、CSV⽂件。

20、BaiduyunSpider[20]-百度云盘爬⾍。

21、Spider[21]-社交数据爬⾍。⽀持微博，知乎,⾖瓣。

22、proxy pool[22]-Python爬⾍代理IP池(proxy pool)。

23、music-163[23]-爬取⽹易云⾳乐所有歌曲的评论。

来源：全球⼈⼯智能

作者：SFLYQ

参考

688IT编程网

23个Python爬虫开源项目代码

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

23个Python爬虫开源项目代码

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性