python爬⾍⼊门,8分钟就够了,最简单的基础教学!
⼀、基础⼊门
1.1什么是爬⾍
爬⾍(spider,⼜⽹络爬⾍),是指向⽹站/⽹络发起请求,获取资源后分析并提取有⽤数据的程序。
从技术层⾯来说就是 通过程序模拟浏览器请求站点的⾏为,把站点返回的HTML代码/JSON数据/⼆进制数据(图⽚、视频) 爬到本地,进⽽提取⾃⼰需要的数据,存放起来使⽤。
1.2爬⾍基本流程
⽤户获取⽹络数据的⽅式:
⽅式1:浏览器提交请求—>下载⽹页代码—>解析成页⾯
⽅式2:模拟浏览器发送请求(获取⽹页代码)->提取有⽤的数据->存放于数据库或⽂件中
爬⾍要做的就是⽅式2。
⼊门python爬⾍,10分钟就够了,这可能是我见过最简单的基础教学
1发起请求
使⽤http库向⽬标站点发起请求,即发送⼀个Request
Request包含:请求头、请求体等
Request模块缺陷:不能执⾏JS 和CSS 代码
2获取响应内容
如果服务器能正常响应,则会得到⼀个Response
Response包含:html,json,图⽚,视频等
3解析内容
解析html数据:正则表达式(RE模块)、xpath(主要使⽤)、beautiful soup、css
解析json数据:json模块
解析⼆进制数据:以wb的⽅式写⼊⽂件
4保存数据
数据库(MySQL,Mongdb、Redis)或 ⽂件的形式。
1.3http协议 请求与响应
http协议
怎么退出linux虚拟机
Request:⽤户将⾃⼰的信息通过浏览器(socket client)发送给服务器(socket server)
Response:服务器接收请求,分析⽤户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图⽚,js,css等)
ps:浏览器在接收Response后,会解析其内容来显⽰给⽤户,⽽爬⾍程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有⽤数据。
对Python感兴趣或者是正在学习的⼩伙伴,可以加⼊我们的Python学习扣qun:784758214,从0基础的python脚本到web开发、爬⾍、django、数据挖掘数据分析等,0基础到项⽬实战的资料都有整理。送给每⼀位python的⼩伙伴!每晚分享⼀些学习的⽅法和需要注意的⼩细节,学习路线规划,利⽤编程赚外快。快点击加⼊我们的
1.3.1
request
(1) 请求⽅式
常见的请求⽅式:GET / POST
(2)请求的URL
url全球统⼀资源定位符,⽤来定义互联⽹上⼀个唯⼀的资源 例如:⼀张图⽚、⼀个⽂件、⼀段视频都可以⽤url唯⼀确定
(3)请求头
User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做⼀个⾮法⽤户host;
cookies:cookie⽤来保存登录信息
注意:⼀般做爬⾍都会加上请求头。
请求头需要注意的参数:
Referrer:访问源⾄哪⾥来(⼀些⼤型⽹站,会通过Referrer 做防盗链策略;所有爬⾍也要注意模拟)
User-Agent:访问的浏览器(要加上否则会被当成爬⾍程序)
cookie:请求头注意携带
(4)请求体
请求体 如果是get⽅式,请求体没有内容 (get请求的请求体放在 url后⾯参数中,直接能看到) 如果是post⽅式,请求体是format data
ps:1、登录窗⼝,⽂件上传等,信息都会被附加到请求体内 2、登录,输⼊错误的⽤户名密码,然后提交,就可以看到post,正确登录后页⾯通常会跳转,⽆法捕捉到post
1.3.2
response
(1)响应状态码
200:代表成功fcpxml文件打开需要源文件吗
301:代表跳转
404:⽂件不存在
403:⽆权限访问
502:服务器错误
(2)response header
响应头需要注意的参数:Set-Cookie:BDSVRTM=0; path=/:可能有多个,是来告诉浏览器,把cookie保存下来
(3)preview就是⽹页源代码
json数据
如⽹页html,图⽚
⼆进制数据等
02
⼆、基础模块
2.1requests
requests是python实现的简单易⽤的HTTP库,是由urllib的升级⽽来。
开源地址:
中⽂API:
2.2re 正则表达式
在 Python 中使⽤内置的 re 模块来使⽤正则表达式。
缺点:处理数据不稳定、⼯作量⼤
2.3XPath
Xpath(XML Path Language) 是⼀门在 XML ⽂档中查信息的语⾔,可⽤来在 XML ⽂档中对元素和属性进⾏遍历。
在python中主要使⽤ lxml 库来进⾏xpath获取(在框架中不使⽤lxml,框架内直接使⽤xpath即可)
lxml 是 ⼀个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。
lxml和正则⼀样,也是⽤ C 实现的,是⼀款⾼性能的 Python HTML/XML 解析器,我们可以利⽤之前学习的XPath语法,来快速的定位特定元素以及节点信息。
2.4BeautifulSoup
和 lxml ⼀样,Beautiful Soup 也是⼀个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/
XML 数据。
使⽤BeautifulSoup需要导⼊bs4库
缺点:相对正则和xpath处理速度慢
优点:使⽤简单
2.5Json
JSON(JavaScript Object Notation) 是⼀种轻量级的数据交换格式,它使得⼈们很容易的进⾏阅读和编写。同时也⽅便了机器进⾏解析和⽣成。适⽤于进⾏数据交互的场景,⽐如⽹站前台与后台之间的数据交互。
在python中主要使⽤ json 模块来处理 json数据。Json解析⽹站:
2.6threading
使⽤threading模块创建线程,直接从threading.Thread继承,然后重写__init__⽅法和run⽅法
03
三、⽅法实例
3.1get⽅法实例
exercise音标
demo_get.py
3.2post⽅法实例demo_post.py
3.3添加代理
python请求并解析json数据demo_proxies.py
3.4获取ajax类数据实例demo_ajax.py
3.5使⽤多线程实例
学习c语言用什么软件好
demo_thread.py
04
四、爬⾍框架
4.1Srcapy框架
Scrapy是⽤纯Python实现⼀个为了爬取⽹站数据、提取结构性数据⽽编写的应⽤框架,⽤途⾮常⼴泛。
Scrapy 使⽤了 Twisted’twɪstɪd异步⽹络框架来处理⽹络通讯,可以加快我们的下载速度,不⽤⾃⼰去实现异步框架,并且包含了各种中间件接⼝,可以灵活的完成各种需求。
4.2Scrapy架构图
qq进制转换登录4.3Scrapy主要组件
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照⼀定的⽅式进⾏整理排列,⼊队,当引擎需要时,交还给引擎。
Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy
Engine(引擎),由引擎交给Spider来处理,
Spider(爬⾍):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进⼊Scheduler(调度器),
Item Pipeline(管道):它负责处理Spider中获取到的Item,并进⾏进⾏后期处理(详细分析、过滤、存储等)的地⽅.
Downloader Middlewares(下载中间件):你可以当作是⼀个可以⾃定义扩展下载功能的组件。
Spider Middlewares(Spider中间件):你可以理解为是⼀个可以⾃定扩展和操作引擎和Spider中间通信的功能组件(⽐如进⼊Spider的Responses;和从Spider出去的Requests)
4.4Scrapy的运作流程
引擎:Hi!Spider, 你要处理哪⼀个⽹站?
Spider:⽼⼤要我处理xxxx。
引擎:你把第⼀个需要处理的URL给我吧。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。