python爬虫入门,8分钟就够了,最简单的基础教学!--688IT编程网

python爬⾍⼊门，8分钟就够了，最简单的基础教学！

⼀、基础⼊门

1.1什么是爬⾍

爬⾍(spider，⼜⽹络爬⾍)，是指向⽹站/⽹络发起请求，获取资源后分析并提取有⽤数据的程序。

从技术层⾯来说就是通过程序模拟浏览器请求站点的⾏为，把站点返回的HTML代码/JSON数据/⼆进制数据（图⽚、视频）爬到本地，进⽽提取⾃⼰需要的数据，存放起来使⽤。

1.2爬⾍基本流程

⽤户获取⽹络数据的⽅式：

⽅式1：浏览器提交请求—>下载⽹页代码—>解析成页⾯

⽅式2：模拟浏览器发送请求(获取⽹页代码)->提取有⽤的数据->存放于数据库或⽂件中

爬⾍要做的就是⽅式2。

⼊门python爬⾍，10分钟就够了，这可能是我见过最简单的基础教学

1发起请求

使⽤http库向⽬标站点发起请求，即发送⼀个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执⾏JS 和CSS 代码

2获取响应内容

如果服务器能正常响应，则会得到⼀个Response

Response包含：html，json，图⽚，视频等

3解析内容

解析html数据：正则表达式（RE模块）、xpath（主要使⽤）、beautiful soup、css

解析json数据：json模块

解析⼆进制数据：以wb的⽅式写⼊⽂件

4保存数据

数据库（MySQL，Mongdb、Redis）或⽂件的形式。

1.3http协议请求与响应

http协议

怎么退出linux虚拟机

Request：⽤户将⾃⼰的信息通过浏览器（socket client）发送给服务器（socket server）

Response：服务器接收请求，分析⽤户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图⽚，js，css等）

ps：浏览器在接收Response后，会解析其内容来显⽰给⽤户，⽽爬⾍程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有⽤数据。

对Python感兴趣或者是正在学习的⼩伙伴，可以加⼊我们的Python学习扣qun：784758214，从0基础的python脚本到web开发、爬⾍、django、数据挖掘数据分析等，0基础到项⽬实战的资料都有整理。送给每⼀位python的⼩伙伴！每晚分享⼀些学习的⽅法和需要注意的⼩细节，学习路线规划，利⽤编程赚外快。快点击加⼊我们的

1.3.1

request

(1) 请求⽅式

常见的请求⽅式：GET / POST

（2）请求的URL

url全球统⼀资源定位符，⽤来定义互联⽹上⼀个唯⼀的资源例如：⼀张图⽚、⼀个⽂件、⼀段视频都可以⽤url唯⼀确定

（3）请求头

User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做⼀个⾮法⽤户host；

cookies：cookie⽤来保存登录信息

注意：⼀般做爬⾍都会加上请求头。

请求头需要注意的参数：

Referrer：访问源⾄哪⾥来（⼀些⼤型⽹站，会通过Referrer 做防盗链策略；所有爬⾍也要注意模拟）

User-Agent：访问的浏览器（要加上否则会被当成爬⾍程序）

cookie：请求头注意携带

（4）请求体

请求体如果是get⽅式，请求体没有内容（get请求的请求体放在 url后⾯参数中，直接能看到）如果是post⽅式，请求体是format data

ps：1、登录窗⼝，⽂件上传等，信息都会被附加到请求体内 2、登录，输⼊错误的⽤户名密码，然后提交，就可以看到post，正确登录后页⾯通常会跳转，⽆法捕捉到post

1.3.2

response

（1）响应状态码

200：代表成功fcpxml文件打开需要源文件吗

301：代表跳转

404：⽂件不存在

403：⽆权限访问

502：服务器错误

（2）response header

响应头需要注意的参数：Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来

（3）preview就是⽹页源代码

json数据

如⽹页html，图⽚

⼆进制数据等

⼆、基础模块

2.1requests

requests是python实现的简单易⽤的HTTP库，是由urllib的升级⽽来。

开源地址：

中⽂API：

2.2re 正则表达式

在 Python 中使⽤内置的 re 模块来使⽤正则表达式。

缺点：处理数据不稳定、⼯作量⼤

2.3XPath

Xpath(XML Path Language) 是⼀门在 XML ⽂档中查信息的语⾔，可⽤来在 XML ⽂档中对元素和属性进⾏遍历。

在python中主要使⽤ lxml 库来进⾏xpath获取（在框架中不使⽤lxml，框架内直接使⽤xpath即可）

lxml 是⼀个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则⼀样，也是⽤ C 实现的，是⼀款⾼性能的 Python HTML/XML 解析器，我们可以利⽤之前学习的XPath语法，来快速的定位特定元素以及节点信息。

2.4BeautifulSoup

和 lxml ⼀样，Beautiful Soup 也是⼀个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/

XML 数据。

使⽤BeautifulSoup需要导⼊bs4库

缺点：相对正则和xpath处理速度慢

优点：使⽤简单

2.5Json

JSON(JavaScript Object Notation) 是⼀种轻量级的数据交换格式，它使得⼈们很容易的进⾏阅读和编写。同时也⽅便了机器进⾏解析和⽣成。适⽤于进⾏数据交互的场景，⽐如⽹站前台与后台之间的数据交互。

在python中主要使⽤ json 模块来处理 json数据。Json解析⽹站：

2.6threading

使⽤threading模块创建线程，直接从threading.Thread继承，然后重写__init__⽅法和run⽅法

三、⽅法实例

3.1get⽅法实例

exercise音标

demo_get.py

3.2post⽅法实例demo_post.py

3.3添加代理

python请求并解析json数据demo_proxies.py

3.4获取ajax类数据实例demo_ajax.py

3.5使⽤多线程实例

学习c语言用什么软件好

demo_thread.py

四、爬⾍框架

4.1Srcapy框架

Scrapy是⽤纯Python实现⼀个为了爬取⽹站数据、提取结构性数据⽽编写的应⽤框架，⽤途⾮常⼴泛。

Scrapy 使⽤了 Twisted’twɪstɪd异步⽹络框架来处理⽹络通讯，可以加快我们的下载速度，不⽤⾃⼰去实现异步框架，并且包含了各种中间件接⼝，可以灵活的完成各种需求。

4.2Scrapy架构图

qq进制转换登录4.3Scrapy主要组件

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照⼀定的⽅式进⾏整理排列，⼊队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy

Engine(引擎)，由引擎交给Spider来处理，

Spider（爬⾍）：它负责处理所有Responses，从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进⼊Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进⾏进⾏后期处理（详细分析、过滤、存储等）的地⽅.

Downloader Middlewares（下载中间件）：你可以当作是⼀个可以⾃定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是⼀个可以⾃定扩展和操作引擎和Spider中间通信的功能组件（⽐如进⼊Spider的Responses；和从Spider出去的Requests）

4.4Scrapy的运作流程

引擎：Hi！Spider, 你要处理哪⼀个⽹站？

Spider：⽼⼤要我处理xxxx。

引擎：你把第⼀个需要处理的URL给我吧。

688IT编程网

python爬虫入门,8分钟就够了,最简单的基础教学!

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python爬虫入门,8分钟就够了,最简单的基础教学!

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式