利用Scrapy爬取豆瓣电影TOP250榜单及影评--688IT编程网

利⽤Scrapy爬取⾖瓣电影TOP250榜单及影评

⼀：⼯具准备：

语⾔:python

安装scrapy包建议直接在Anaconda⾥安装，不易出错。其他安装⽅式，你懂得~

IDLE:Spyder（Anaconda带的编译器）

⼆：解析页⾯：

页⾯：

解析：笔者利⽤⽕狐浏览器的插件xPath Finder解析⽹页的源代码，易于查HTML中元素的定位，在⽕狐浏览器的插件中即可下载。

定位到需要的爬取的元素。在本次爬取的过程中，需要爬取的元素有电影的排名、名字、得分、打分的⼈数和影评等。

三.建⽴⼯程⽂件：

⾸先要在cmd中新建⼀个爬⾍⽂件（这是scrapy的框架决定的，⼀定要记住这些命令）

scrapy startproject XXX 创建爬⾍项⽬

scrapy genspider XXX “XXX” 创建爬⾍名字，不能与项⽬名字⼀致

scrapy crawl XXX 运⾏爬⾍项⽬

在anaconda的cmd命令⾥运⾏命令

scrapy startproject douban_movie

scrapy genspider douban_topmovies “movie.douban/top250”

在运⾏这些命令的⽂件夹下⽣成了⼀系列⽂件

scrapy.cfg: 项⽬的配置⽂件

douban_movies: 该项⽬的python模块。在此加⼊代码。

douban_movies/spiders/: 放置spider代码的⽬录。

douban_movies/items.py：需要提取的数据结构定义⽂件。

douban_movies/middlewares.py: 是和Scrapy的请求/响应处理相关联的框架。

douban_movies/pipelines.py: ⽤来对items⾥⾯提取的数据做进⼀步处理，如保存等。

douban_movies/settings.py: 项⽬的配置⽂件。

四.实现过程

源代码电影讲解1：在items.py定义需要抓取的数据

上⾯的rank、movie_name、score等等就像是字典中的“键”，爬到的数据就像似字典中的“值”。2：在douban_movies/spiders/ douban_topmovies实现抓取的⽅法，笔者⽤xpath解析⽹页

3.pipeline⽂件的编写

4.setting⽂件修改

五：运⾏结果

在anaconda的cmd中执⾏scrapy crawl douban_movies 得到⼀个csv⽂件，结果如下：

发表评论

688IT编程网

利用Scrapy爬取豆瓣电影TOP250榜单及影评

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

利用Scrapy爬取豆瓣电影TOP250榜单及影评

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式