scrapy工作流程--688IT编程网

scrapy工作流程

Scrapy是一个专业的Web爬虫框架，用Python语言开发，它可以爬取网页，抽取用户需要的内容，它为项目提供了一个架构，可以抓取有关网站，处理抓取到的数据，以及将数据导出为所需的格式。

Scrapy使用Kernel，数据管道，运行时等组件组成，这些组件协调实现一个Web爬虫。

抓取：scrapy分布式爬虫

Scrapy通过HTTP请求从服务器获取指定的网页，它支持多种HTTP方法，包括GET，POST，HEAD，PUT，DELETE等。下载管理器可以处理重定向，HTTP错误，长时间连接，Robot协议等任务。该模块UAFilter（用户代理过滤器）在从网站抓取内容时，可以按照用户代理进行过滤。

结构化文档：

在抓取到网页之后， Scrapy会使用选定的解析器提取相关内容。Scrapy支持主流的XPath和CSS选择器语法，也可以使用正则表达式。

爬虫：

爬虫是Scrapy的核心部分，它负责从start urls读取网页，解析提取数据，以及将数据发送到item pipeline中以便进行处理。爬虫使用CrawlSpider和XMLFeedSpider两种预定义spider，或者根据用户指定的页面来爬取网站，也可以跨网站采集数据。

Item Pipeline：

Item Pipeline将处理从spider抓取到的item，该组件可以将item转换为更有用的格式，再也不会有更新，清理，验证或存储item的需求，只需编写一个item pipeline类，实现指定的方法即可，Scrapy支持多种item pipeline方式，事件处理，存储方式，数据库存取，文件存取，JSON，XML文件及其他等等。

Scheduler：

Scheduler是一个核心组件，大多数Scrapy抓取应用程序使用调度器来跟踪哪些网页被爬取，哪些等待被抓取。Scheduler可以将Request对象发送给引擎，并对得到的响应对象进行处理，调度器可以保存Request的URL，用于下次重新访问的同一网页。

Downloader Middleware：

Downloader middleware是Scrapy的插件系统，可以改变Scrapy如何处理Request和Response。它可以从网页上抓取数据，更改Request的内容，或者改变Response的内容。它还可以更改headers发送给服务器，禁止爬虫抓取指定的URL，使用代理服务器等。

常用任务：

Scrapy可以完成大量常见任务，例如抓取网页，抓取指定页面，抓取文件，抽取结构化文档，抽取数据库，识别垃圾邮件等等。

Scrapy的工作流程就是这样，它从start urls读取网页，解析提取数据，将数据发送到item pipeline中以便进行处理，然后经过多种复杂的任务完成抓取过程。

688IT编程网

scrapy工作流程

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

scrapy工作流程

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式