python爬虫介绍_python爬虫简介--688IT编程网

python爬⾍介绍_python爬⾍简介

初识Python爬⾍

互联⽹

简单来说互联⽹是由⼀个个站点和⽹络设备组成的⼤⽹，我们通过浏览器访问站点，站点把HTML、JS、CSS代码返回给浏览器，这些代码经过浏览器解析、渲染，将丰富多彩的⽹页呈现我们眼前；

⼀、什么是爬⾍

⽹络爬⾍(⼜被称为⽹页蜘蛛，⽹络机器⼈，在FOAF社区中间，更经常的称为⽹页追逐者)，是⼀种按照⼀定的规则，⾃动地抓取万维⽹信息的程序或者脚本。另外⼀些不常使⽤的名字还有蚂蚁、⾃动索引、模拟程序或者蠕⾍。

如果我们把互联⽹⽐作⼀张⼤的蜘蛛⽹，数据便是存放于蜘蛛⽹的各个节点，⽽爬⾍就是⼀只⼩蜘蛛，沿着⽹络抓取⾃⼰的猎物(数据)

爬⾍指的是：向⽹站发起请求，获取资源后分析并提取有⽤数据的程序;

从技术层⾯来说就是通过程序模拟浏览器请求站点的⾏为，把站点返回的HTML代码/JSON数据/⼆进制数据(图⽚、视频) 爬到本地，进⽽提取⾃⼰需要的数据，存放起来使⽤；

php面试题及答案大全⼆、爬⾍的基本流程：

⽤户获取⽹络数据的⽅式：

⽅式1：浏览器提交请求--->下载⽹页代码--->解析成页⾯

⽅式2：模拟浏览器发送请求(获取⽹页代码)->提取有⽤的数据->存放于数据库或⽂件中

爬⾍要做的就是⽅式2；

其实，爬⾍的过程和浏览器浏览⽹页的过程是⼀样的。道理⼤家应该都明⽩，就是当我们在键盘上输⼊⽹址点击搜索之后，通过⽹络⾸先会经过DNS服务器，分析⽹址的域名，到了真正的服务器。然后我们通过HTTP协议对服务器发出GET或POST请求，若请求成功，我们就得到了我们想看到的⽹页，⼀般都是⽤HTML, CSS, JS等前端技术来构建的，若请求不成功，服务器会返回给我们请求失败的状态码，常见到的503，403等。

1、发起请求

使⽤http库向⽬标站点发起请求，即发送⼀个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执⾏JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应，则会得到⼀个Response

Response包含：html，json，图⽚，视频等

3、解析内容

解析html数据：正则表达式(RE模块)，第三⽅解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析⼆进制数据：以wb的⽅式写⼊⽂件

4、保存数据

数据库(MySQL，Mongdb、Redis)

⽂件

三、、 request

1、请求⽅式：

2、请求的URL

url编码

3、请求头

4、请求体

请求体

总结爬⾍流程：

互联⽹

系统架构图详细说明

⼀、什么是爬⾍

如果我们把互联⽹⽐作⼀张⼤的蜘蛛⽹，数据便是存放于蜘蛛⽹的各个节点，⽽爬⾍就是⼀只⼩蜘蛛，沿着⽹络抓取⾃⼰的猎物(数据)

爬⾍指的是：向⽹站发起请求，获取资源后分析并提取有⽤数据的程序;

connectnamedpipefailed⼆、爬⾍的基本流程：

⽤户获取⽹络数据的⽅式：

⽅式1：浏览器提交请求—>下载⽹页代码—>解析成页⾯

⽅式2：模拟浏览器发送请求(获取⽹页代码)->提取有⽤的数据->存放于数据库或⽂件中

爬⾍要做的就是⽅式2；

爬⾍过程

1、发起请求

使⽤http库向⽬标站点发起请求，即发送⼀个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执⾏JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应，则会得到⼀个Response

Response包含：html，json，图⽚，视频等

3、解析内容

解析html数据：正则表达式(RE模块)，第三⽅解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析⼆进制数据：以wb的⽅式写⼊⽂件

4、保存数据

数据库(MySQL，Mongdb、Redis)

⽂件

三、、 request

1、请求⽅式：

常见的请求⽅式：GET / POST

2、请求的URL

url全球统⼀资源定位符，⽤来定义互联⽹上⼀个唯⼀的资源例如：⼀张图⽚、⼀个⽂件、⼀段视频都可以⽤url唯⼀确定url编码

match函数用来干嘛

⽹页的加载过程是：

加载⼀个⽹页，通常都是先加载document⽂档，

python请求并解析json数据在解析document⽂档的时候，遇到链接，则针对超链接发起请求

3、请求头

User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做⼀个⾮法⽤户host；

cookies：cookie⽤来保存登录信息

请求头需要注意的参数：

(1)Referrer：访问源⾄哪⾥来(⼀些⼤型⽹站，会通过Referrer 做防盗链策略；所有爬⾍也要注意模拟)

(2)User-Agent：访问的浏览器(要加上否则会被当成爬⾍程序)

(3)cookie：请求头注意携带

4、请求体

请求体

如果是get⽅式，请求体没有内容 (get请求的请求体放在 url后⾯参数中，直接能看到)

如果是post⽅式，请求体是format data

ps：

1、登录窗⼝，⽂件上传等，信息都会被附加到请求体内

oracle数据库语句查询2、登录，输⼊错误的⽤户名密码，然后提交，就可以看到post，正确登录后页⾯通常会跳转，⽆法捕捉到post

总结爬⾍流程：

爬取—>解析—>存储

688IT编程网

python爬虫介绍_python爬虫简介

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python爬虫介绍_python爬虫简介

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式