Python新⼿爬⾍四:爬取视频
⽼样⼦,先上最后成功源码(在D盘下创建'好看视频'⽂件夹,直接运⾏即可获取视频):
import sys
import re,os电脑主板power sw位置在哪
python入门教程视屏import requests
from you_get import common as you_get
def getVideo(url,path,headers):
demo = (url,headers=headers) # 获取⽹站信息
data = demo.json() # 转换为JSON格式
data_list = data['data']['response']['videos'] # 获取每个视频的属性列表
# 遍历,将每⼀个视频信息展⽰出来
for i in data_list:
title = i['title'] + '.mp4' # 获取视频名称(描述),视频要修改为的名称,为后边改名做准备
url1 = i['play_url'] # 获取视频源url
videoName = re.split('\?|/',url1)[5][:80]+'.mp4' # 视频下载后,会是⼀⼤串字母和数字的组合,这个主要就是获取视频下载后的原名称
ps基础教程新手入门# 开始下载
print('开始下载:' + title)
开源工作流管理系统try:
sys.argv = ['you_get', '-o',path,url1] # 视频的属性编辑,选择路径等
you_get.main() # 开始下载
print(' 下载完成')
except:
print(title + '下载失败!')
if__name__ == '__main__':
url = 'haokan.baidu/videoui/api/videorec?tab=yingshi&act=pcFeed&pd=pc&num=20&shuaxin_id=1592551368953'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36 Edg/83.0.478.54',
chrpath'cookie': 'BIDUPSID=517516CBF0261FA0AF6B039EAFEDF39C; PSTM=1589624436; BAIDUID=517516CBF0261FA090A0395C8BF0F31A:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; PC_TAB_LOG=haokan_website_page path = r'D:\好看视频\\'
getVideo(url,path,headers)
下载过程:
视频展⽰:因为爬取的是推荐视频,每次执⾏会获取不同的视频。
先来介绍⼀下所⽤到的库
1、requests库:众所周知,爬⾍神器
2、re库:主要⽤来split的
3、sys和you-get库:主要任务下载视频
4、os库:⽤来修改⽂件名
注意:库没安装记得pip install 库名
下边捋⼀下思路
源程序量如何计算1、进⼊好看视频⽹站—>影视(或者推荐随便哪个分类)—>随便个视频右击—>检查
2、选择⽹络—>XHR—>选择包
获取到当前界⾯
3、展开data—>response—>videos层层扒开
会发现所有的视频id、title都在这⾥,格式是JSON
4、再来展开其中⼀条视频的信息,下边还有,截屏不全,视频所有的信息都在这了
5、我们主要⽤到的有title、play_url,你会发现,箭头所指的⽅向还有⼀个url标签,当你不确定url到底是哪个时,你可以直接复制到浏览器打开查看⼀下
6、到这⾥,视频的名称和url就已经获取到了,具体的实现过程就看上边的源码吧,基本都有注释
7、这⾥要简单说⼀下you-get库,是个⾮常强⼤的下载视频库,除了在脚本上应⽤,也可以直接在cmd中执⾏,先看下它⽀持的选项:主要⽤到的有两个,⼀个是 -o 指定路径,另⼀个是--debug主要在错误时打印⽇志
⽐如随便个B站视频下载下来:
是不是巨⽅便
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论