Python爬虫初学二(网络数据采集)--688IT编程网

Python爬⾍初学⼆（⽹络数据采集）

⽬录

⼀、⽹络数据采集

1.什么是⽹络数据采集

“⽹络数据采集”是指利⽤互联⽹搜索引擎技术实现有针对性、⾏业性、精准性的数据抓取，并按照⼀定规则和筛选标准进⾏数据归类，并形成的⼀个过程。

2.⽹络数据采集的特点

⽀持⾃定义。

⽀持⾃适应采集。

⽀持采集。

⽀持各种导出。

⽀持仿⼈⼯式的随机采集数据。渐变美甲教程全过程

⽀持⾃定义阅读模板。

⽀持登陆、代理采集。

⽀持各种列表分页采集。

⽀持各种内容采集。

⽀持各种排重过滤。

各种采集⽇志和采集源⽇志监控。

⽀持采集⽹站、采集源管理。

⽀持采集图⽚、附件、⾳频，视频等⽂件或附件。附件与正⽂⾃动映射与关联。

⽀持多种附件保存⽅式，可保存⾄磁盘或数据库。

⽀持附件的压缩存储。

⽀持对采集来的信息进⾏⼆次加⼯。⽀持采集内容的⾃动排版。

真正的多⽤户采集系统，每个操作都要记录操作内容、操作⼈以及操作时间。

真正的多线层、多任务采集、集采集。

图形监控⽹络使⽤情况、采集情况等。

⽀持海量数据采集。

sqrt的重载函数软件实⽤、易⽤、功能强⼤。

可移植、可扩展、可定制。

Python 给⼈的印象是抓取⽹页⾮常⽅便，提供这种⽣产⼒的，主要依靠的就是 urllib、requests这两个模块。

这⾥重点介绍requests模块。

⼆、⽹络数据采集之urllib库

urlopen进⾏简单的⽹站请求，不⽀持复杂功能如验证、cookie和其他HTTP⾼级功能，若要⽀持这些功能必须使⽤build_opener()函数返回的OpenerDirector对象。

很多⽹站为了防⽌程序爬⾍爬⽹站照成⽹站瘫痪，会需要携带⼀些headers头部信息才能访问, 我们可以通过quest.Request对象指定请求头部信息.

quest import urlopen, Request

# ⽅法⼀: 通过get⽅法请求url

ssm框架的基本原理with urlopen('/') as f:

# 默认返回的页⾯信息是bytes类型, bytes类型转换成字符串，decode⽅法。

ad(300).decode('utf-8'))

# ⽅法⼆: Request对象发起请求

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0'

# 封装请求头部信息，模拟浏览器向服务器发起请求

request = Request('/', headers={'User-Agent': user_agent})

with urlopen(request) as f:

# 默认返回的页⾯信息是bytes类型, bytes类型转换成字符串，decode⽅法。

ad(300).decode('utf-8'))

运⾏结果如下：

三、⽹络数据采集之requests库

pip install -i pypi.douban/simple requests

⽅法说明

<()获取HTML⽹页的主要⽅法，对应于HTTP的GET

requests.head() 获取HTML⽹页头信息的⽅法

requests.post()向HTML⽹页提交POST请求的⽅法，对应于HTTP 的POST

slider gain

requests.put()向HTML⽹页提交PUT请求的⽅法，对应于HTTP的PUT

requests.patch() 向HTML⽹页提交局部修改请求，对应于HTTP的PATCH

requests.delete() 向HTML页⾯提交删除请求，对应于HTTP的DELETE

import HTTPError

import requests

京东python入门教程

def get():

# get⽅法可以获取页⾯数据，也可以提交⾮敏感数据

# url = '127.0.0.1:5000/'

# url = '127.0.0.1:5000/?username=fentiao&page=1&per_page=5'

url = '127.0.0.1:5000/'

try:

params = {

'username': 'lucky',

'page': 1,

'per_page': 5

}

response = (url, params=params)

, response.url)

# print(response)

# print(response.status_code)

# )

# t)

# ding)

except HTTPError as e:

print("爬⾍爬取%s失败: %s" % (url, e.reason))

def post():

url = '127.0.0.1:5000/post'oracle查询分页详细

try:

data = {

'username': 'admin',

'password': 'westos12'

}

response = requests.post(url, data=data)

)

except HTTPError as e:

print("爬⾍爬取%s失败: %s" % (url, e.reason))

if __name__ == '__main__':

get()

# post()

Response对象包含服务器返回的所有信息，也包含请求的Request信息。

属性说明

r.status_code HTTP请求的返回状态，200表⽰连接成功，404失败

< HTTP响应内容的字符串形式，URL对应的页⾯内容

r.apparent_encoding

从内容中分析出的响应的编码⽅式(备选编码⽅式)

四.⾼级应⽤⼀：添加headers

有些⽹站访问时必须带有浏览器等信息，如果不传⼊headers就会报错

headers = {'User=Agent':useragent}

response = (url, headers = heders)

UserAgent是识别浏览器的⼀串字符串，相当于浏览器的⾝份证，在利⽤爬⾍爬取⽹站数据时，频繁更换UserAgent可以避免触发相应的

反爬机制。

fake-useragent对频繁更换UserAgent提供了很好的⽀持，可谓防反扒利器。

# ⽤户代理

import requests

from fake_useragent import UserAgent

def add_headers():

"""

封装⼀个请求头部，获取页⾯的时候加进去，get,post都可以

不同的浏览器请求头部不同

"""

#⾕歌浏览器的请求头部拷贝过来

# headers= {'user_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'} # 默认情况下python爬⾍的⽤户代理是：客户端请求的user_agent: python-requests/2.22.0

ua = UserAgent() # 从⽹络获取所有的⽤户代理

# print(ua.random) #可以随机拿出⼀个⽤户代理

headers = {'user_Agent': ua.random}

response = ('127.0.0.1:5000', headers=headers)

print(response)

if __name__ == '__main__':

add_headers()

五.⾼级应⽤⼆：IP代理设置

在进⾏爬⾍爬取时，有时候爬⾍会被服务器给屏蔽掉，这时采⽤的⽅法主要有降低访问时间，通过代理IP访问。ip可以从⽹上抓取，或者某宝购买。

proxies = { "http": "127.0.0.1:9743", "https": "127.0.0.1:9743",}

response = (url, proxies=proxies)

# IP代理

import requests

from fake_useragent import UserAgent

ua = UserAgent()

# 代理IP

proxies = {

'http':'222.95.144.65:3000',

'https':'182.92.220.212:8080'

}

response = ('47.92.255.98:8000',

headers = {'User-Agent':ua.random},

proxies = proxies)

print(response)

# 这是因为服务器端会返回数据：get提交的数据和请求的客户端ip #如何判断是否成功：返回的客户端IP刚好是代理IP

)

六.项⽬案例⼀：京东商品的爬取

688IT编程网

Python爬虫初学二(网络数据采集)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

Python爬虫初学二(网络数据采集)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行