Python—爬取网络图片(正则表达式)--688IT编程网

Python—爬取⽹络图⽚（正则表达式）

⼀、源码：

import requests

import re

import os

#创建存储图⽚⽂件夹

if not ists('./爬取图⽚'):

os.mkdir('./爬取图⽚')

#UA伪装

headers={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36' }

#获取⽹页地址

url='picbian/4kdongman/index_%d.html'

for pageNum in range(2,10):

new_url=format(url%pageNum)

#url对应的⼀整张页⾯进⾏爬取

page_(url=new_url,headers=headers).text

#将页⾯中的图⽚进⾏解析正则表达式

ex='<li>.*?<img src="(.*?)" alt=.*?><b>.*?</b></a></li>'

#存储每页每张图⽚信息

img_src_list=re.findall(ex,page_text,re.S)

#存储每页图⽚

for src in img_src_list:

#拼接出⼀个完整的图⽚url

src='picbian/'+src

#请求到图⽚的⼆进制数据

img_(url=src,headers=headers).content

#图⽚名称

图片下载站源码img_name=src.split('/')[-1]

#图⽚存储路径

imgPath='./爬取图⽚/'+img_name

with open(imgPath,'wb') as fp:

fp.write(img_data)

print(img_name,'下载成功')

⼆、实现效果：

三、步骤解析：

-1 指定url(⽹页地址)

- UA 伪装

请求参数的处理(有参数请求时)

-2 发送请求(打开⽹页)

-3 获取响应数据(⽹页数据)

-4 持久化存储(存储数据)

1.指定url

#获取⽹页地址

url='picbian/4kdongman/index_%d.html'

#UA伪装

headers={

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'

}

2.发送请求

#请求获取⼀整张页⾯

<(url=new_url,headers=headers).text

#请求到图⽚的⼆进制数据

<(url=src,headers=headers).content

3.获取响应数据

#获取到url页⾯数据

page_(url=new_url,headers=headers).text

#获取到图⽚的⼆进制数据

img_(url=src,headers=headers).content

4.持久化存储

with open(imgPath,'wb') as fp:

fp.write(img_data)

print(img_name,'下载成功')

四、正则表达式的获取

#⽹页每张图⽚的信息

<li><a href="/tupian/28900.html" target="_blank"><img src="/uploads/allimg/220215/233307-164493918726da.jpg" alt="敦煌飞天⼥孩佛像 3d美⼥4k动漫壁纸384

#正则表达式提取

ex='<li>.*?<img src="(.*?)" alt=.*?><b>.*?</b></a></li>'

688IT编程网

Python—爬取网络图片(正则表达式)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Python—爬取网络图片(正则表达式)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式