使⽤Requests库爬取⽹页(超简单)Requests库简介
Requests库是python的第三⽅库,⽬前公认的爬取⽹页最好的第三⽅库。
Requests库的安装
以管理员⾝份运⾏cmd
输⼊ pip install requests
我这⾥之前已经装好了
来看看requests库有没有安装成功
打开python(可直接在命令⾏输⼊python)
import requests# 导库
r = ("/shiwenv_2d0368e3fb76.aspx")#获取古诗⽂⽹url
r.status_code #查看状态码,200表⽰⽹页已经获取成功,其他都不成功
< #输出⽂本
如图,requests库安装成功。
Requests库的常⽤⽅法
通过 (url) ⽅法可构造⼀个向服务器请求资源的Request对象,并且返回⼀个包含服务器资源的Response对象(包含从服务器返回的所有的资源,爬⾍返回的全部内容)
<(url,params=None,**kwargs)
url:获取页⾯的URL链接
params:URL中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问参数,可选
Response对象的属性:
爬取⽹页的通⽤代码框架
def getHTMLText(url):#封装成了⼀个函数
try:
r = (url,timeout=30)
r.raise_for_status()#如果状态不是200,引发HTTPError异常
except:
return"产⽣异常"
可以使⽤户爬取⽹页更稳定、更可靠
简单网页
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论