Python新手爬虫四:爬取视频--688IT编程网

Python新⼿爬⾍四：爬取视频

⽼样⼦，先上最后成功源码（在D盘下创建'好看视频'⽂件夹，直接运⾏即可获取视频）：

import sys

import re,os电脑主板power sw位置在哪

python入门教程视屏import requests

from you_get import common as you_get

def getVideo(url,path,headers):

demo = (url,headers=headers) # 获取⽹站信息

data = demo.json() # 转换为JSON格式

data_list = data['data']['response']['videos'] # 获取每个视频的属性列表

# 遍历，将每⼀个视频信息展⽰出来

for i in data_list:

title = i['title'] + '.mp4' # 获取视频名称(描述)，视频要修改为的名称，为后边改名做准备

url1 = i['play_url'] # 获取视频源url

videoName = re.split('\?|/',url1)[5][:80]+'.mp4' # 视频下载后，会是⼀⼤串字母和数字的组合，这个主要就是获取视频下载后的原名称

ps基础教程新手入门# 开始下载

print('开始下载：' + title)

开源工作流管理系统try:

sys.argv = ['you_get', '-o',path,url1] # 视频的属性编辑，选择路径等

you_get.main() # 开始下载

print(' 下载完成')

except:

print(title + '下载失败!')

if__name__ == '__main__':

url = 'haokan.baidu/videoui/api/videorec?tab=yingshi&act=pcFeed&pd=pc&num=20&shuaxin_id=1592551368953'

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36 Edg/83.0.478.54',

chrpath

'cookie': 'BIDUPSID=517516CBF0261FA0AF6B039EAFEDF39C; PSTM=1589624436; BAIDUID=517516CBF0261FA090A0395C8BF0F31A:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; PC_TAB_LOG=haokan_website_page path = r'D:\好看视频\\'

getVideo(url,path,headers)

下载过程：

视频展⽰：因为爬取的是推荐视频，每次执⾏会获取不同的视频。

先来介绍⼀下所⽤到的库

1、requests库：众所周知，爬⾍神器

2、re库：主要⽤来split的

3、sys和you-get库：主要任务下载视频

4、os库：⽤来修改⽂件名

注意：库没安装记得pip install 库名

下边捋⼀下思路

源程序量如何计算1、进⼊好看视频⽹站—>影视（或者推荐随便哪个分类）—>随便个视频右击—>检查

2、选择⽹络—>XHR—>选择包

获取到当前界⾯

3、展开data—>response—>videos层层扒开

会发现所有的视频id、title都在这⾥，格式是JSON

4、再来展开其中⼀条视频的信息，下边还有，截屏不全，视频所有的信息都在这了

5、我们主要⽤到的有title、play_url，你会发现，箭头所指的⽅向还有⼀个url标签，当你不确定url到底是哪个时，你可以直接复制到浏览器打开查看⼀下

6、到这⾥，视频的名称和url就已经获取到了，具体的实现过程就看上边的源码吧，基本都有注释

7、这⾥要简单说⼀下you-get库，是个⾮常强⼤的下载视频库，除了在脚本上应⽤，也可以直接在cmd中执⾏，先看下它⽀持的选项：主要⽤到的有两个，⼀个是 -o 指定路径，另⼀个是--debug主要在错误时打印⽇志

⽐如随便个B站视频下载下来：

是不是巨⽅便

688IT编程网

Python新手爬虫四:爬取视频

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python新手爬虫四:爬取视频

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式