【python实验报告】⽤urllib来爬取⽹站页⾯中的图⽚和视频在python中,有很多⽅法都可以实现⽹站页⾯中的图⽚和视频的爬取,urllib是其中的⼀种。
爬取图⽚
⼀. 实验⽬的
熟悉⽤urllib爬取图⽚的⽤法
⼆. 实验环境
python3.6、urllib包、re包
三. 实验步骤
import urllib
quest
import re
import time
url = "tu.duowan/m/meinv"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'} #模拟浏览器访问
#1.根据URL获取页⾯源码
request = quest.Request(url, headers=headers)
response = quest.urlopen(request)
html = ad().decode('utf-8')
#2.通过正则表达式匹配出页⾯中符合要求的图⽚地址
pattern = repile(r'[\S]*\.jpg') #当前只匹配jpg格式的图⽚
lists = re.findall(pattern, html)
#3.根据图⽚地址下载图⽚到本地⽬录
print("图⽚下载开始!")
num = 1
for item in lists:
print("正在下载第%s张图⽚"%num)
if num == 12: # 只下载12张图⽚图片下载站源码
break
time.sleep(1) #为了防⽌请求过快
num += 1
print("图⽚下载结束!")
四. 实验结果
五. 实验总结
⽤urllib来爬取⽹站中的图⽚很简单,主要分为3步:
1. 根据URL获取页⾯源码
2. 通过正则表达式匹配出页⾯中符合要求的图⽚地址
3. 根据图⽚地址下载图⽚到本地⽬录
本例中还有很多需要完善的地⽅,⽐如:异常处理、⽤os库新建本地⽂件夹、匹配所有类型的图⽚、代码如何改成⾯向对象等。
视频的爬取⽅法跟图⽚完全⼀样,只是扩展名不同。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论