10个python爬⾍⼊门实例(⼩结)
昨天带伙伴萌学习python爬⾍,准备了⼏个简单的⼊门实例
涉及主要知识点:
1. web是如何交互的
2. requests库的get、post函数的应⽤
3. response对象的相关函数,属性
4. python⽂件的打开,保存
代码中给出了注释,并且可以直接运⾏哦
如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装⼀哈python环境)
windows⽤户,Linux⽤户⼏乎⼀样:
打开cmd输⼊以下命令即可,如果python的环境在C盘的⽬录,会提⽰权限不够,只需以管理员⽅式运⾏cmd窗⼝pip install -i pypi.tuna.tsinghua.edu/simple requests
Linux⽤户类似(ubantu为例): 权限不够的话在命令前加⼊sudo即可
sudo pip install -i pypi.tuna.tsinghua.edu/simple requests
1.爬取强⼤的BD页⾯,打印页⾯信息
# 第⼀个爬⾍⽰例,爬取百度页⾯
import requests #导⼊爬⾍的库,不然调⽤不了爬⾍的函数
response = ("www.baidu") #⽣成⼀个response对象
print("状态码:"+ str( response.status_code ) ) #打印状态码
)#输出爬取的信息
2.常⽤⽅法之get⽅法实例,下⾯还有传参实例
# 第⼆个get⽅法实例
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
response = ("/get") #get⽅法
print( response.status_code ) #状态码
print( )
3. 常⽤⽅法之post⽅法实例,下⾯还有传参实例
# 第三个 post⽅法实例
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
response = requests.post("/post") #post⽅法访问
print( response.status_code ) #状态码
print( )
4. put⽅法实例
# 第四个 put⽅法实例
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
response = requests.put("/put") # put⽅法访问
print( response.status_code ) #状态码
print( )
5.常⽤⽅法之get⽅法传参实例(1)
如果需要传多个参数只需要⽤&符号连接即可如下
# 第五个 get传参⽅法实例
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
response = ("/get?name=hezhi&age=20") # get传参
print( response.status_code ) #状态码
python安装教程非常详细
print( )
6.常⽤⽅法之get⽅法传参实例(2)
params⽤字典可以传多个
# 第六个 get传参⽅法实例
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
data = {
"name":"hezhi",
"age":20
}
response = ( "/get" , params=data ) # get传参
print( response.status_code ) #状态码
print( )
7.常⽤⽅法之post⽅法传参实例(2) 和上⼀个有没有很像
# 第七个 post传参⽅法实例
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
data = {
"name":"hezhi",
"age":20
}
response = requests.post( "/post" , params=data ) # post传参
print( response.status_code ) #状态码
print( )
8.关于绕过反爬机制,以zh爸爸为例
# 第好⼏个⽅法实例
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
response = ( "www.zhihu") #第⼀次访问知乎,不设置头部信息
print( "第⼀次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200
#下⾯是可以正常爬取的区别,更改了User-Agent字段
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36" }#设置头部信息,伪装浏览器
response = ( "www.zhihu" , headers=headers ) #get⽅法访问,传⼊headers参数,
print( response.status_code ) # 200!访问成功的状态码
print( )
9.爬取信息并保存到本地,因为⽬录关系,在D盘建⽴了⼀个叫做爬⾍的⽂件夹,然后保存信息
注意⽂件保存时的encoding设置
# 爬取⼀个html并保存
import requests
url = "www.baidu"
response = ( url )
print("\nr的类型" + str( type(response) ) )
print("\n状态码是:" + str( response.status_code ) )
print("\n头部信息:" + str( response.headers ) )
print( "\n响应内容:" )
print( )
#保存⽂件
file = open("D:\\爬⾍\\baidu.html","w",encoding="utf") #打开⼀个⽂件,w是⽂件不存在则新建⼀个⽂件,这⾥不⽤wb是因为不⽤保存成⼆进制
file.write( )
file.close()
10.爬取图⽚,保存到本地
#保存百度图⽚到本地
import requests #先导⼊爬⾍的库,不然调⽤不了爬⾍的函数
response = ("www.baidu/img/baidu_jgylogo3.gif") #get⽅法的到图⽚响应
file = open("D:\\爬⾍\\baidu_logo.gif","wb") #打开⼀个⽂件,wb表⽰以⼆进制格式打开⼀个⽂件只⽤于写⼊
file.t) #写⼊⽂件
file.close()#关闭操作,运⾏完毕后去你的⽬录看⼀眼有没有保存成功
到此这篇关于10个python爬⾍⼊门实例(⼩结)的⽂章就介绍到这了,更多相关python爬⾍⼊门内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论