必须收藏!23个Python爬虫开源项目代码:、淘宝、等--688IT编程网

必须收藏！23个Python爬⾍开源项⽬代码：、淘宝、等

今天分享的⽂章为⼤家整理了23个Python爬⾍项⽬。

整理的原因是，爬⾍⼊门简单快速，也⾮常适合新⼊门的⼩伙伴培养信⼼，所有链接指向GitHub，不能直接打开，⽼规矩，可以⽤电脑打开。.

当然⼩编这⾥也准备⼀份适合你的学习资料爬⾍，web开发的学习资料视频教程，私信⼩编“01”都可以免费获取！这些书籍都是可以私信⼩编“01”免费领取的！![在这⾥插⼊图⽚描述](img-blog.csdnimg/1f50f0d3258643bfa3d45496ca543898.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naG VpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L01DX0tpdHR5,size_16,color_FFFFFF,t_70)

1. WechatSogou – 爬⾍

基于搜狗搜索的爬⾍接⼝，可以扩展成基于搜狗搜索的爬⾍，返回结果是列表，每⼀项均是具体信息字典。

github地址：

2. DouBanSpider – ⾖瓣读书爬⾍

可以爬下⾖瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可⽅便⼤家筛选搜罗，⽐如筛选评价⼈数>1000的⾼分书籍；可依据不同的主题存储到Excel不同的Sheet ，采⽤User Agent伪装为浏览器进⾏爬取，并加⼊随机延时来更好地模仿浏览器⾏为，避免爬⾍被封。

前端开发要会写什么?github地址：

3. zhihu_spider – 知乎爬⾍

此项⽬的功能是爬取知乎⽤户信息以及⼈际拓扑关系，爬⾍框架使⽤scrapy，数据存储使⽤mongo

github地址：

4. bilibili-user – Bilibili⽤户爬⾍

总数据数：20119918，抓取字段：⽤户id，昵称，性别，头像，等级，经验值，粉丝数，⽣⽇，地址，注册时间，签名，等级与经验值等。抓取之后⽣成B站⽤户数据报告。

github地址：

5. SinaSpider – 新浪微博爬⾍

主要爬取新浪微博⽤户的个⼈信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进⾏登录，可通过多账号登录来防⽌新浪的反扒。主要使⽤ scrapy 爬⾍框架。所以想学的同学，有必要听⼀下这位⽼师的课、领取python福利奥，想学的同学可以到梦雅⽼师的围鑫（同⾳）：前排的是：762，中间⼀排是：459，后排的⼀组是：510 ，把以上三组字母按照顺序组合起来即可，她会安排学习的。

github地址：

6. distribute_crawler – ⼩说下载分布式爬⾍

使⽤scrapy,Redis, MongoDB,graphite实现的⼀个分布式⽹络爬⾍，底层存储MongoDB集，分布式使⽤Redis实现，爬⾍状态显⽰使⽤graphite实现，主要针对⼀个⼩说站点。

github地址：

7. CnkiSpider – 中国知⽹爬⾍。

设置检索条件后，执⾏src/CnkiSpider.py抓取数据，抓取数据存储在/data⽬录下，每个数据⽂件的第⼀⾏为字段名称。

github地址：

8. LianJiaSpider – 链家⽹爬⾍。

爬取北京地区链家历年⼆⼿房成交记录。涵盖链家爬⾍⼀⽂的全部代码，包括链家模拟登录代码。

单进程多线程什么意思github地址：

9. scrapy_jingdong – 京东爬⾍。

基于scrapy的京东⽹站爬⾍，保存格式为csv。

github地址：

10. QQ-Groups-Spider – QQ 爬⾍。

批量抓取 QQ 信息，包括名称、号、⼈数、主、简介等内容，最终⽣成 XLS(X) / CSV 结果⽂件。

编程代码基础知识

github地址：

11. wooyun_public -乌云爬⾍。

乌云公开漏洞、知识库爬⾍和搜索。全部公开漏洞的列表和每个漏洞的⽂本内容存在MongoDB中，⼤概约2G内容；如果整站爬全部⽂本和图⽚作为离线查询，⼤概需要10G空间、2⼩时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使⽤了Flask作为web server，bootstrap作为前端。

12. spider – hao123⽹站爬⾍。

以hao123为⼊⼝页⾯，滚动爬取外链，收集⽹址，并记录⽹址上的内链和外链数⽬，记录title等信息，windows7 32位上测试，⽬前每24个⼩时，可收集数据为10万左右

京东python入门教程13. findtrip – 机票爬⾍（去哪⼉和携程⽹）。编程猫少儿编程电话

Findtrip是⼀个基于Scrapy的机票爬⾍，⽬前整合了国内两⼤机票⽹站（去哪⼉ + 携程）。

14. 163spider – 基于requests、MySQLdb、torndb的⽹易客户端内容爬⾍

15. doubanspiders – ⾖瓣电影、书籍、⼩组、相册、东西等爬⾍集

16. QQSpider – QQ空间爬⾍，包括⽇志、说说、个⼈信息等，⼀天可抓取 400 万条数据。

17. baidu-music-spider – 百度mp3全站爬⾍，使⽤redis⽀持断点续传。

计算机进制转换工具

18. tbcrawler – 淘宝和天猫的爬⾍，可以根据搜索关键词，物品id来抓取页⾯的信息，数据存储在mongodb。

19. stockholm – ⼀个股票数据（沪深）爬⾍和选股策略测试框架。根据选定的⽇期范围抓取所有沪深两市股票的⾏情数据。⽀持使⽤表

达式定义选股策略。⽀持多线程处理。保存数据到JSON⽂件、CSV⽂件。所以想学的同学，有必要听⼀下这位⽼师的课、领取python福利奥，想学的同学可以到梦雅⽼师的围鑫（同⾳）：前排的是：762，中间⼀排是：459，后排的⼀组是：510 ，把以上三组字母按照顺序组合起来即可，她会安排学习的。

20. BaiduyunSpider - 百度云盘爬⾍。

21. Spider - 社交数据爬⾍。⽀持微博，知乎,⾖瓣。

22. proxy pool - Python爬⾍代理IP池(proxy pool)。

23. music-163 - 爬取⽹易云⾳乐所有歌曲的评论。

688IT编程网

必须收藏!23个Python爬虫开源项目代码:、淘宝、等

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

必须收藏!23个Python爬虫开源项目代码:、淘宝、等

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法