Python爬⾍初学⼆(⽹络数据采集)
⽬录
⼀、⽹络数据采集
1.什么是⽹络数据采集
“⽹络数据采集”是指利⽤互联⽹搜索引擎技术实现有针对性、⾏业性、精准性的数据抓取,并按照⼀定规则和筛选标准进⾏数据归类,并形成的⼀个过程。
2.⽹络数据采集的特点
⽀持⾃定义。
⽀持⾃适应采集。
⽀持采集。
⽀持各种导出。
⽀持仿⼈⼯式的随机采集数据。渐变美甲教程全过程
⽀持⾃定义阅读模板。
⽀持登陆、代理采集。
⽀持各种列表分页采集。
⽀持各种内容采集。
⽀持各种排重过滤。
各种采集⽇志和采集源⽇志监控。
⽀持采集⽹站、采集源管理。
⽀持采集图⽚、附件、⾳频,视频等⽂件或附件。附件与正⽂⾃动映射与关联。
⽀持多种附件保存⽅式,可保存⾄磁盘或数据库。
⽀持附件的压缩存储。
⽀持对采集来的信息进⾏⼆次加⼯。⽀持采集内容的⾃动排版。
真正的多⽤户采集系统,每个操作都要记录操作内容、操作⼈以及操作时间。
真正的多线层、多任务采集、集采集。
图形监控⽹络使⽤情况、采集情况等。
⽀持海量数据采集。
sqrt的重载函数软件实⽤、易⽤、功能强⼤。
可移植、可扩展、可定制。
Python 给⼈的印象是抓取⽹页⾮常⽅便,提供这种⽣产⼒的,主要依靠的就是 urllib、requests这两个模块。
这⾥重点介绍requests模块。
⼆、⽹络数据采集之urllib库
urlopen进⾏简单的⽹站请求,不⽀持复杂功能如验证、cookie和其他HTTP⾼级功能,若要⽀持这些功能必须使⽤build_opener()函数返回的OpenerDirector对象。
很多⽹站为了防⽌程序爬⾍爬⽹站照成⽹站瘫痪,会需要携带⼀些headers头部信息才能访问, 我们可以通过quest.Request对象指定请求头部信息.
quest import urlopen, Request
# ⽅法⼀: 通过get⽅法请求url
ssm框架的基本原理with urlopen('/') as f:
# 默认返回的页⾯信息是bytes类型, bytes类型转换成字符串,decode⽅法。
ad(300).decode('utf-8'))
# ⽅法⼆: Request对象发起请求
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0'
# 封装请求头部信息,模拟浏览器向服务器发起请求
request = Request('/', headers={'User-Agent': user_agent})
with urlopen(request) as f:
# 默认返回的页⾯信息是bytes类型, bytes类型转换成字符串,decode⽅法。
ad(300).decode('utf-8'))
运⾏结果如下:
三、⽹络数据采集之requests库
pip install -i pypi.douban/simple requests
⽅法 说明
<()获取HTML⽹页的主要⽅法,对应于HTTP的GET
requests.head() 获取HTML⽹页头信息的⽅法
requests.post()向HTML⽹页提交POST请求的⽅法,对应于HTTP 的POST
slider gainrequests.put()向HTML⽹页提交PUT请求的⽅法,对应于HTTP的PUT
requests.patch() 向HTML⽹页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML页⾯提交删除请求,对应于HTTP的DELETE
import HTTPError
import requests
京东python入门教程
def get():
# get⽅法可以获取页⾯数据,也可以提交⾮敏感数据
# url = '127.0.0.1:5000/'
# url = '127.0.0.1:5000/?username=fentiao&page=1&per_page=5'
url = '127.0.0.1:5000/'
try:
params = {
'username': 'lucky',
'page': 1,
'per_page': 5
}
response = (url, params=params)
, response.url)
# print(response)
# print(response.status_code)
# )
# t)
# ding)
except HTTPError as e:
print("爬⾍爬取%s失败: %s" % (url, e.reason))
def post():
url = '127.0.0.1:5000/post'oracle查询分页详细
try:
data = {
'username': 'admin',
'password': 'westos12'
}
response = requests.post(url, data=data)
)
except HTTPError as e:
print("爬⾍爬取%s失败: %s" % (url, e.reason))
if __name__ == '__main__':
get()
# post()
Response对象包含服务器返回的所有信息,也包含请求的Request信息。
属性说明
r.status_code HTTP请求的返回状态,200表⽰连接成功,404失败
< HTTP响应内容的字符串形式,URL对应的页⾯内容
r.apparent_encoding
从内容中分析出的响应的编码⽅式(备选编码⽅式)
四.⾼级应⽤⼀:添加headers
有些⽹站访问时必须带有浏览器等信息,如果不传⼊headers就会报错
headers = {'User=Agent':useragent}
response = (url, headers = heders)
UserAgent是识别浏览器的⼀串字符串,相当于浏览器的⾝份证,在利⽤爬⾍爬取⽹站数据时,频繁更换UserAgent可以避免触发相应的
反爬机制。
fake-useragent对频繁更换UserAgent提供了很好的⽀持,可谓防反扒利器。
# ⽤户代理
import requests
from fake_useragent import UserAgent
def add_headers():
"""
封装⼀个请求头部,获取页⾯的时候加进去,get,post都可以
不同的浏览器请求头部不同
"""
#⾕歌浏览器的请求头部拷贝过来
# headers= {'user_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'} # 默认情况下python爬⾍的⽤户代理是:客户端请求的user_agent: python-requests/2.22.0
ua = UserAgent() # 从⽹络获取所有的⽤户代理
# print(ua.random) #可以随机拿出⼀个⽤户代理
headers = {'user_Agent': ua.random}
response = ('127.0.0.1:5000', headers=headers)
print(response)
if __name__ == '__main__':
add_headers()
五.⾼级应⽤⼆:IP代理设置
在进⾏爬⾍爬取时,有时候爬⾍会被服务器给屏蔽掉,这时采⽤的⽅法主要有降低访问时间,通过代理IP访问。ip可以从⽹上抓取,或者某宝购买。
proxies = { "http": "127.0.0.1:9743", "https": "127.0.0.1:9743",}
response = (url, proxies=proxies)
# IP代理
import requests
from fake_useragent import UserAgent
ua = UserAgent()
# 代理IP
proxies = {
'http':'222.95.144.65:3000',
'https':'182.92.220.212:8080'
}
response = ('47.92.255.98:8000',
headers = {'User-Agent':ua.random},
proxies = proxies)
print(response)
# 这是因为服务器端会返回数据:get提交的数据和请求的客户端ip #如何判断是否成功:返回的客户端IP刚好是代理IP
)
六.项⽬案例⼀:京东商品的爬取
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论