python爬⾍需求分析-其实并不难!⼏分钟带你分析python爬
⾍⼊门简单基础!
⼀、基础⼊门
1.1什么是爬⾍
爬⾍(spider,⼜⽹络爬⾍),是指向⽹站/⽹络发起请求,获取资源后分析并提取有⽤数据的程序。
从技术层⾯来说就是 通过程序模拟浏览器请求站点的⾏为,把站点返回的HTML代码/JSON数据/⼆进制数据(图⽚、视频) 爬到本地,进⽽提取⾃⼰需要的数据,存放起来使⽤。
1.2爬⾍基本流程
⽤户获取⽹络数据的⽅式:
⽅式1:浏览器提交请求--->下载⽹页代码--->解析成页⾯
⽅式2:模拟浏览器发送请求(获取⽹页代码)->提取有⽤的数据->存放于数据库或⽂件中
爬⾍要做的就是⽅式2。
⼊门python爬⾍,10分钟就够了,这可能是我见过最简单的基础教学
1发起请求
使⽤http库向⽬标站点发起请求,即发送⼀个Request
Request包含:请求头、请求体等
Request模块缺陷:不能执⾏JS 和CSS 代码
2获取响应内容
如果服务器能正常响应,则会得到⼀个Response
Response包含:html,json,图⽚,视频等
3解析内容
解析html数据:正则表达式(RE模块)、xpath(主要使⽤)、beautiful soup、css
解析json数据:json模块
解析⼆进制数据:以wb的⽅式写⼊⽂件
4保存数据
数据库(MySQL,Mongdb、Redis)或 ⽂件的形式。
1.3http协议 请求与响应
http协议
Request:⽤户将⾃⼰的信息通过浏览器(socket client)发送给服务器(socket server)
Response:服务器接收请求,分析⽤户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图⽚,js,css等)
编程语言有
ps:浏览器在接收Response后,会解析其内容来显⽰给⽤户,⽽爬⾍程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有⽤数据。
1.3.1
request
编程用的语言(1) 请求⽅式
常见的请求⽅式:GET / POST
(2)请求的URL
url全球统⼀资源定位符,⽤来定义互联⽹上⼀个唯⼀的资源 例如:⼀张图⽚、⼀个⽂件、⼀段视频都可以⽤url唯⼀确定
(3)请求头
User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做⼀个⾮法⽤户host;
cookies:cookie⽤来保存登录信息
注意:⼀般做爬⾍都会加上请求头。
请求头需要注意的参数:
Referrer:访问源⾄哪⾥来(⼀些⼤型⽹站,会通过Referrer 做防盗链策略;所有爬⾍也要注意模拟)
User-Agent:访问的浏览器(要加上否则会被当成爬⾍程序)
cookie:请求头注意携带
(4)请求体
请求体 如果是get⽅式,请求体没有内容 (get请求的请求体放在 url后⾯参数中,直接能看到) 如果是post⽅式,请求体是format data
ps:1、登录窗⼝,⽂件上传等,信息都会被附加到请求体内 2、登录,输⼊错误的⽤户名密码,然后提交,就可以看到post,正确登录后页⾯通常会跳转,⽆法捕捉到post
1.3.2
response
(1)响应状态码
200:代表成功
301:代表跳转
404:⽂件不存在
403:⽆权限访问
组成html5主体结构的三对标签502:服务器错误
(2)response header
响应头需要注意的参数:Set-Cookie:BDSVRTM=0; path=/:可能有多个,是来告诉浏览器,把cookie保存下来
(3)preview就是⽹页源代码
json数据
如⽹页html,图⽚
⼆进制数据等
02
⼆、基础模块
2.1requests
requests是python实现的简单易⽤的HTTP库,是由urllib的升级⽽来。
开源地址:
中⽂API:
2.2re 正则表达式
在 Python 中使⽤内置的 re 模块来使⽤正则表达式。
缺点:处理数据不稳定、⼯作量⼤
2.3XPath
Xpath(XML Path Language) 是⼀门在 XML ⽂档中查信息的语⾔,可⽤来在 XML ⽂档中对元素和属性进⾏遍历。
在python中主要使⽤ lxml 库来进⾏xpath获取(在框架中不使⽤lxml,框架内直接使⽤xpath即可)
cesium读音lxml 是 ⼀个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则⼀样,也是⽤ C 实现的,是⼀款⾼性能的 Python HTML/XML 解析器,我们可以利⽤之前学习的XPath语法,来快速的定位特定元素以及节点信息。
2.4BeautifulSoup
python请求并解析json数据gradle国内镜像和 lxml ⼀样,Beautiful Soup 也是⼀个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
使⽤BeautifulSoup需要导⼊bs4库
缺点:相对正则和xpath处理速度慢
优点:使⽤简单
2.5Json
JSON(JavaScript Object Notation) 是⼀种轻量级的数据交换格式,它使得⼈们很容易的进⾏阅读和编写。同时也⽅便了机器进⾏解析和⽣成。适⽤于进⾏数据交互的场景,⽐如⽹站前台与后台之间的数据交互。
在python中主要使⽤ json 模块来处理 json数据。Json解析⽹站:
2.6threading
使⽤threading模块创建线程,直接从threading.Thread继承,然后重写__init__⽅法和run⽅法
03
三、⽅法实例
3.1get⽅法实例
demo_get.py
3.2post⽅法实例demo_post.py
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论