python爬虫需求分析-其实并不难!几分钟带你分析python爬虫入门简单...--688IT编程网

python爬⾍需求分析-其实并不难！⼏分钟带你分析python爬

⾍⼊门简单基础！

⼀、基础⼊门

1.1什么是爬⾍

爬⾍(spider，⼜⽹络爬⾍)，是指向⽹站/⽹络发起请求，获取资源后分析并提取有⽤数据的程序。

从技术层⾯来说就是通过程序模拟浏览器请求站点的⾏为，把站点返回的HTML代码/JSON数据/⼆进制数据（图⽚、视频）爬到本地，进⽽提取⾃⼰需要的数据，存放起来使⽤。

1.2爬⾍基本流程

⽤户获取⽹络数据的⽅式：

⽅式1：浏览器提交请求--->下载⽹页代码--->解析成页⾯

⽅式2：模拟浏览器发送请求(获取⽹页代码)->提取有⽤的数据->存放于数据库或⽂件中

爬⾍要做的就是⽅式2。

⼊门python爬⾍，10分钟就够了，这可能是我见过最简单的基础教学

1发起请求

使⽤http库向⽬标站点发起请求，即发送⼀个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执⾏JS 和CSS 代码

2获取响应内容

如果服务器能正常响应，则会得到⼀个Response

Response包含：html，json，图⽚，视频等

3解析内容

解析html数据：正则表达式（RE模块）、xpath（主要使⽤）、beautiful soup、css

解析json数据：json模块

解析⼆进制数据：以wb的⽅式写⼊⽂件

4保存数据

数据库（MySQL，Mongdb、Redis）或⽂件的形式。

1.3http协议请求与响应

http协议

Request：⽤户将⾃⼰的信息通过浏览器（socket client）发送给服务器（socket server）

Response：服务器接收请求，分析⽤户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图⽚，js，css等）

编程语言有

ps：浏览器在接收Response后，会解析其内容来显⽰给⽤户，⽽爬⾍程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有⽤数据。

1.3.1

request

编程用的语言

(1) 请求⽅式

常见的请求⽅式：GET / POST

（2）请求的URL

url全球统⼀资源定位符，⽤来定义互联⽹上⼀个唯⼀的资源例如：⼀张图⽚、⼀个⽂件、⼀段视频都可以⽤url唯⼀确定

（3）请求头

User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做⼀个⾮法⽤户host；

cookies：cookie⽤来保存登录信息

注意：⼀般做爬⾍都会加上请求头。

请求头需要注意的参数：

Referrer：访问源⾄哪⾥来（⼀些⼤型⽹站，会通过Referrer 做防盗链策略；所有爬⾍也要注意模拟）

User-Agent：访问的浏览器（要加上否则会被当成爬⾍程序）

cookie：请求头注意携带

（4）请求体

请求体如果是get⽅式，请求体没有内容（get请求的请求体放在 url后⾯参数中，直接能看到）如果是post⽅式，请求体是format data

ps：1、登录窗⼝，⽂件上传等，信息都会被附加到请求体内 2、登录，输⼊错误的⽤户名密码，然后提交，就可以看到post，正确登录后页⾯通常会跳转，⽆法捕捉到post

1.3.2

response

（1）响应状态码

200：代表成功

301：代表跳转

404：⽂件不存在

403：⽆权限访问

组成html5主体结构的三对标签

502：服务器错误

（2）response header

响应头需要注意的参数：Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来

（3）preview就是⽹页源代码

json数据

如⽹页html，图⽚

⼆进制数据等

⼆、基础模块

2.1requests

requests是python实现的简单易⽤的HTTP库，是由urllib的升级⽽来。

开源地址：

中⽂API：

2.2re 正则表达式

在 Python 中使⽤内置的 re 模块来使⽤正则表达式。

缺点：处理数据不稳定、⼯作量⼤

2.3XPath

Xpath(XML Path Language) 是⼀门在 XML ⽂档中查信息的语⾔，可⽤来在 XML ⽂档中对元素和属性进⾏遍历。

在python中主要使⽤ lxml 库来进⾏xpath获取（在框架中不使⽤lxml，框架内直接使⽤xpath即可）

cesium读音lxml 是⼀个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则⼀样，也是⽤ C 实现的，是⼀款⾼性能的 Python HTML/XML 解析器，我们可以利⽤之前学习的XPath语法，来快速的定位特定元素以及节点信息。

2.4BeautifulSoup

python请求并解析json数据gradle国内镜像和 lxml ⼀样，Beautiful Soup 也是⼀个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

使⽤BeautifulSoup需要导⼊bs4库

缺点：相对正则和xpath处理速度慢

优点：使⽤简单

2.5Json

JSON(JavaScript Object Notation) 是⼀种轻量级的数据交换格式，它使得⼈们很容易的进⾏阅读和编写。同时也⽅便了机器进⾏解析和⽣成。适⽤于进⾏数据交互的场景，⽐如⽹站前台与后台之间的数据交互。

在python中主要使⽤ json 模块来处理 json数据。Json解析⽹站：

2.6threading

使⽤threading模块创建线程，直接从threading.Thread继承，然后重写__init__⽅法和run⽅法

三、⽅法实例

3.1get⽅法实例

demo_get.py

3.2post⽅法实例demo_post.py

688IT编程网

python爬虫需求分析-其实并不难!几分钟带你分析python爬虫入门简单...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python爬虫需求分析-其实并不难!几分钟带你分析python爬虫入门简单...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式