33个Python爬虫项目实战(推荐)--688IT编程网

33个Python爬⾍项⽬实战（推荐）

今天为⼤家整理了32个Python爬⾍项⽬。

整理的原因是，爬⾍⼊门简单快速，也⾮常适合新⼊门的⼩伙伴培养信⼼。所有链接指向GitHub，祝⼤家玩的愉快~O(∩_∩)O

- 爬⾍。基于搜狗搜索的爬⾍接⼝，可以扩展成基于搜狗搜索的爬⾍，返回结果是列表，每⼀项均是具体信息字典。

- ⾖瓣读书爬⾍。可以爬下⾖瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可⽅便⼤家筛选搜罗，⽐如筛选评价⼈数>1000的⾼分书籍；可依据不同的主题存储到Excel不同的Sheet ，采⽤User Agent伪装为浏览器进⾏爬取，并加⼊随机延时来更好的模仿浏览器⾏为，避免爬⾍被封。

- 知乎爬⾍。此项⽬的功能是爬取知乎⽤户信息以及⼈际拓扑关系，爬⾍框架使⽤scrapy，数据存储使⽤mongo

- Bilibili⽤户爬⾍。总数据数：20119918，抓取字段：⽤户id，昵称，性别，头像，等级，经验值，粉丝数，⽣⽇，地址，注册时间，签名，等级与经验值等。抓取之后⽣成B站⽤户数据报告。

新浪微博爬⾍。主要爬取新浪微博⽤户的个⼈信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进⾏登录，可通过多账号登录来防⽌新浪的反扒。主要使⽤ scrapy 爬⾍框架。

- ⼩说下载分布式爬⾍。使⽤scrapy,Redis, MongoDB,graphite实现的⼀个分布式⽹络爬⾍，底层存储MongoDB集，分布式使⽤Redis实现，爬⾍状态显⽰使⽤graphite实现，主要针对⼀个⼩说站点。

- 中国知⽹爬⾍。设置检索条件后，执⾏src/CnkiSpider.py抓取数据，抓取数据存储在/data⽬录下，每个数据⽂件的第⼀⾏为字段名称。

- 链家⽹爬⾍。爬取北京地区链家历年⼆⼿房成交记录。涵盖链家爬⾍⼀⽂的全部代码，包括链家模拟登录代码。

- 京东爬⾍。基于scrapy的京东⽹站爬⾍，保存格式为csv。

pspppolicy设置

- QQ 爬⾍。批量抓取 QQ 信息，包括名称、号、⼈数、主、简介等内容，最终⽣成 XLS(X) / CSV 结果⽂件。-乌云爬⾍。乌云公开漏洞、知识库爬⾍和搜索。全部公开漏洞的列表和每个漏洞的⽂本内容存在MongoDB中，⼤概约2G内容；如果整站爬全部⽂本和图⽚作为离线查询，⼤概需要10G空间、2⼩时（10M电信带宽）；爬取全部知识库，总共约500M 空间。漏洞搜索使⽤了Flask作为web server，bootstrap作为前端。

学习十九大心得体会

hao123⽹站爬⾍。以hao123为⼊⼝页⾯，滚动爬取外链，收集⽹址，并记录⽹址上的内链和外链数⽬，记录title等信

息，windows7 32位上测试，⽬前每24个⼩时，可收集数据为10万左右

- 机票爬⾍（去哪⼉和携程⽹）。Findtrip是⼀个基于Scrapy的机票爬⾍，⽬前整合了国内两⼤机票⽹站（去哪⼉ + 携程）。 - 基于requests、MySQLdb、torndb的⽹易客户端内容爬⾍

学编程课程有什么用- ⾖瓣电影、书籍、⼩组、相册、东西等爬⾍集 writen by Python

- QQ空间爬⾍，包括⽇志、说说、个⼈信息等，⼀天可抓取 400 万条数据。

- 百度mp3全站爬⾍，使⽤redis⽀持断点续传。

- 淘宝和天猫的爬⾍，可以根据搜索关键词，物品id来抓去页⾯的信息，数据存储在mongodb。

- ⼀个股票数据（沪深）爬⾍和选股策略测试框架。根据选定的⽇期范围抓取所有沪深两市股票的⾏情数据。⽀持使⽤表达式定义选股策略。⽀持多线程处理。保存数据到JSON⽂件、CSV⽂件。

-百度云盘爬⾍。

社交数据爬⾍。⽀持微博，知乎,⾖瓣。

-Python爬⾍代理IP池(proxy pool)。

-爬取⽹易云⾳乐所有歌曲的评论。

-爬取煎蛋妹纸图⽚。

forward动词用法-cnblogs列表页爬⾍。

-爬取慕课⽹视频。

汇编指令san-中国知⽹爬⾍。京东python入门教程

-知道创宇爬⾍题⽬。

-爱丝APP图⽚爬⾍。

-动态IP解决新浪的反爬⾍机制，快速抓取内容。

-爬取CSDN上的博客⽂章。

爬取西刺上的代理IP，并验证代理可⽤性

2018.8.2更新：

-本系统是⼀个主要使⽤python3, celery和requests来爬取职位数据的爬⾍，实现了定时任务，出错重试，⽇志记录，⾃动更改Cookies等的功能，并使⽤ECharts + Bootstrap 来构建前端页⾯，来展⽰爬取到的数据。

以上就是本⽂的全部内容，希望对⼤家的学习有所帮助，也希望⼤家多多⽀持。

688IT编程网

33个Python爬虫项目实战(推荐)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

33个Python爬虫项目实战(推荐)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式