Scrapy简单⼊门及实例讲解
Scrapy是⼀个为了爬取⽹站数据,提取结构性数据⽽编写的应⽤框架。其可以应⽤在数据挖掘,信息处理或存储历史数据等⼀系列的程序中。其最初是为了页⾯抓取 (更确切来说, ⽹络抓取 )所设计的,也可以应⽤在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通⽤的⽹络爬⾍。Scrapy⽤途⼴泛,可以⽤于数据挖掘、监测和⾃动化测试。
Scrapy 使⽤了 Twisted异步⽹络库来处理⽹络通讯。整体架构⼤致如下
Scrapy主要包括了以下组件:
引擎(Scrapy)
⽤来处理整个系统的数据流, 触发事务(框架核⼼)
调度器(Scheduler)
⽤来接受引擎发过来的请求, 压⼊队列中, 并在引擎再次请求的时候返回. 可以想像成⼀个URL(抓取⽹页的⽹址或者说是链接)的优先队列, 由它来决定下⼀个要抓取的⽹址是什么, 同时去除重复的⽹址
下载器(Downloader)
⽤于下载⽹页内容, 并将⽹页内容返回给蜘蛛(Scrapy下载器是建⽴在twisted这个⾼效的异步模型上的)
爬⾍(Spiders)
爬⾍是主要⼲活的, ⽤于从特定的⽹页中提取⾃⼰需要的信息, 即所谓的实体(Item)。⽤户也可以从中提取出链接,让Scrapy继续抓取下⼀个页⾯
项⽬管道(Pipeline)
负责处理爬⾍从⽹页中抽取的实体,主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页⾯被爬⾍解析后,将被发送到项⽬管道,并经过⼏个特定的次序处理数据。
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
爬⾍中间件(Spider Middlewares)
介于Scrapy引擎和爬⾍之间的框架,主要⼯作是处理蜘蛛的响应输⼊和请求输出。
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。
Scrapy运⾏流程⼤概如下:
1. 引擎从调度器中取出⼀个链接(URL)⽤于接下来的抓取
2. 引擎把URL封装成⼀个请求(Request)传给下载器
3. 下载器把资源下载下来,并封装成应答包(Response)
4. 爬⾍解析Response
5. 解析出实体(Item),则交给实体管道进⾏进⼀步的处理
6. 解析出的是链接(URL),则把URL交给调度器等待抓取
pip install wheel
2、安装lxml
/pypi/lxml/4.1.0
3、安装pyopenssl
/pypi/pyOpenSSL/17.5.0
4、安装Twisted
www.lfd.uci.edu/~gohlke/pythonlibs/
5、安装pywin32
sourceforge/projects/pywin32/files/
6、安装scrapy
pip install scrapy
注:windows平台需要依赖pywin32,请根据⾃⼰系统32/64位选择下载安装,sourceforge/projects/pywin32/
⼆、爬⾍举例
⼊门篇:美剧天堂前100最新(ijutt/new100.html)
1、创建⼯程
scrapy startproject movie
2、创建爬⾍程序
cd movie
scrapy genspider meiju meijutt
3、⾃动创建⽬录及⽂件
4、⽂件说明:
scrapy.cfg  项⽬的配置信息,主要为Scrapy命令⾏⼯具提供⼀个基础的配置信息。(真正爬⾍相关的配置信息在settings.py⽂件中)items.py    设置数据存储模板,⽤于结构化数据,如:Django的Model
pipelines    数据处理⾏为,如:⼀般结构化的数据持久化
settings.py 配置⽂件,如:递归的层数、并发数,延迟下载等
spiders      爬⾍⽬录,如:创建⽂件,编写爬⾍规则
注意:⼀般创建爬⾍⽂件时,以⽹站域名命名
5、设置数据存储模板
class MovieItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
6、编写爬⾍
  meiju.py
# -*- coding: utf-8 -*-
import scrapy
from movie.items import MovieItem
class MeijuSpider(scrapy.Spider):
name = "meiju"
allowed_domains = ["meijutt"]
start_urls = ['ijutt/new100.html']
def parse(self, response):
movies = response.xpath('//ul[@class="top-list  fn-clear"]/li')
for each_movie in movies:
item = MovieItem()
item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]
yield item
7、设置配置⽂件
  settings.py增加如下内容
ITEM_PIPELINES = {'movie.pipelines.MoviePipeline':100}
8、编写数据处理脚本
  pipelines.py
class MoviePipeline(object):
def process_item(self, item, spider):
with open("",'a') as fp:
fp.write(item['name'].encode("utf8") + '\n')
9、执⾏爬⾍
cd movie
scrapy crawl meiju --nolog
10、结果
进阶篇:爬取校花⽹(www.xiaohuar/list-1-1.html)
scrapy startproject pic
2、创建爬⾍程序
cd pic
scrapy genspider xh xiaohuar
3、⾃动创建⽬录及⽂件
4、⽂件说明:
scrapy.cfg  项⽬的配置信息,主要为Scrapy命令⾏⼯具提供⼀个基础的配置信息。(真正爬⾍相关的配置信息在settings.py⽂件中)items.py    设置数据存储模板,⽤于结构化数据,如:Django的Model
pipelines    数据处理⾏为,如:⼀般结构化的数据持久化
settings.py 配置⽂件,如:递归的层数、并发数,延迟下载等
spiders      爬⾍⽬录,如:创建⽂件,编写爬⾍规则
注意:⼀般创建爬⾍⽂件时,以⽹站域名命名
5、设置数据存储模板
import scrapy
class PicItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
addr = scrapy.Field()
name = scrapy.Field()
6、编写爬⾍
# -*- coding: utf-8 -*-
import scrapy
import os
# 导⼊item中结构化数据模板
from pic.items import PicItem
class XhSpider(scrapy.Spider):
# 爬⾍名称,唯⼀
name = "xh"
# 允许访问的域
allowed_domains = ["xiaohuar"]
# 初始URL
start_urls = ['www.xiaohuar/list-1-1.html']
def parse(self, response):
item = PicItem()
name = pic.xpath('./img/@alt').extract()[0]
addr = pic.xpath('./img/@src').extract()[0]
addr = 'www.xiaohuar'+addr
item['name'] = name
item['addr'] = addr
# 返回爬取到的数据
yield item
7、设置配置⽂件
# 设置处理返回数据的类及执⾏优先级
ITEM_PIPELINES = {'pic.pipelines.PicPipeline':100}
8、编写数据处理脚本
import urllib2
import os
class PicPipeline(object):
def process_item(self, item, spider):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0'}        req = urllib2.Request(url=item['addr'],headers=headers)
scrapy分布式爬虫res = urllib2.urlopen(req)
file_name = os.path.join(r'D:\my\down_pic',item['name']+'.jpg')
with open(file_name,'wb') as fp:
fp.ad())
9、执⾏爬⾍
cd pic
scrapy crawl xh --nolog
结果:
终极篇:我想要所有校花图
注明:基于进阶篇再修改为终极篇
#  xh.py
# -*- coding: utf-8 -*-
import scrapy
import os
from scrapy.http import Request
# 导⼊item中结构化数据模板
from pic.items import PicItem
class XhSpider(scrapy.Spider):
# 爬⾍名称,唯⼀
name = "xh"
# 允许访问的域
allowed_domains = ["xiaohuar"]
# 初始URL
start_urls = ['www.xiaohuar/hua/']
# 设置⼀个空集合
url_set = set()

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。