利⽤Scrapy爬取⾖瓣电影TOP250榜单及影评
⼀:⼯具准备:
语⾔:python
安装scrapy包建议直接在Anaconda⾥安装,不易出错。其他安装⽅式,你懂得~
IDLE:Spyder(Anaconda带的编译器)
⼆:解析页⾯:
页⾯:
解析:笔者利⽤⽕狐浏览器的插件xPath Finder解析⽹页的源代码,易于查HTML中元素的定位,在⽕狐浏览器的插件中即可下载。
定位到需要的爬取的元素。在本次爬取的过程中,需要爬取的元素有电影的排名、名字、得分、打分的⼈数和影评等。
三.建⽴⼯程⽂件:
⾸先要在cmd中新建⼀个爬⾍⽂件(这是scrapy的框架决定的,⼀定要记住这些命令)
scrapy startproject XXX 创建爬⾍项⽬
scrapy genspider XXX “XXX” 创建爬⾍名字,不能与项⽬名字⼀致
scrapy crawl XXX 运⾏爬⾍项⽬
在anaconda的cmd命令⾥运⾏命令
scrapy startproject douban_movie
scrapy genspider douban_topmovies “movie.douban/top250”
在运⾏这些命令的⽂件夹下⽣成了⼀系列⽂件
scrapy.cfg: 项⽬的配置⽂件
douban_movies: 该项⽬的python模块。在此加⼊代码。
douban_movies/spiders/: 放置spider代码的⽬录。
douban_movies/items.py:需要提取的数据结构定义⽂件。
douban_movies/middlewares.py: 是和Scrapy的请求/响应处理相关联的框架。
douban_movies/pipelines.py: ⽤来对items⾥⾯提取的数据做进⼀步处理,如保存等。
douban_movies/settings.py: 项⽬的配置⽂件。
四.实现过程
源代码电影讲解1:在items.py定义需要抓取的数据
上⾯的rank、movie_name、score等等就像是字典中的“键”,爬到的数据就像似字典中的“值”。2:在douban_movies/spiders/ douban_topmovies实现抓取的⽅法,笔者⽤xpath解析⽹页
3.pipeline⽂件的编写
4.setting⽂件修改
五:运⾏结果
在anaconda的cmd中执⾏scrapy crawl douban_movies 得到⼀个csv⽂件,结果如下:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论