python获取json中最大值_详细解析Python爬取bilibili的视频、弹幕以及封...--688IT编程网

python获取json中最⼤值_详细解析Python爬取bilibili的视频、

弹幕以及封⾯

本⽂使⽤ Zhihu On VSCode 创作并发布

环境

⽤到的 Python 库：

Python 3.7

requests

moviepy

json

浏览器：Firefox/ 83.0

访问测试

Image

可以看出有两种不同的⽂件，⼀种是 30280，另⼀种是 30080。

因为 B 站是把⾳频和视频分开传输的，所以很明显，⼀种是视频，另⼀种就是⾳频。按⼤⼩来分的话，30080 是视频，30280 是⾳频⽂

件。

⾸先⽤试着获取其中的⼀个⽂件，来测试⼀下。先把请求视频 url 复制下来，再把请求头弄下来，接着发送个请求。

import requests

headers = {

'Accept': '*/*',

'Accept-Language': 'zh,en-US;q=0.7,en;q=0.3',python请求并解析json数据

'Accept-Encoding': 'gzip, deflate, br',

'TE': 'Trailers',

'Range': 'bytes=1431-391742',

'Origin': 'www.bilibili',

'Connection': 'keep-alive',

'DNT': '1',

'Referer': 'www.bilibili/video/BV1E4411e7ir',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0',

}

url = 'upos-sz-mirrorks3.bilivideo/upgcxcode/40/06/91280640/91280640-1-30280.m4s?e=ig8euxZM2rNcNbdlhoNvNC8BqJIzNbfqXBvEqxTEto8BTrNvN res = (url, headers=headers)

with open('test.flv', 'wb') as fp:

fp.t)

然⽽请求之后发现 flv ⽂件是空的，再看⼀下发回的请求⽂本，显⽰ 403 禁⽌错误：

<html>

<head>

<title>403 Forbidden</title>

</head>

<center><h1>403 Forbidden</h1></center>

<hr />

<center>QCMAS/V2</center>

</body>

</html>

再仔细观察⼀下抓包情况，在发送请 get 请求之前，浏览器会发送两个 options 请求，应该是请求许可的意思。分别是请求⾳频许可和请

求视频许可，因为请求 url 与请求⾳视频的 url 相同。

Image

那么⽤ session 来发送请求，保存好信息，再去请求链接。修改⼀下代码：

import requests

# 请求⾳视频的请求头

headers_1 = {

'Accept': '*/*',

'Accept-Language': 'zh,en-US;q=0.7,en;q=0.3',

'Accept-Encoding': 'gzip, deflate, br',

'TE': 'Trailers',

'Range': 'bytes=1431-391742',

'Origin': 'www.bilibili',

'Connection': 'keep-alive',

'DNT': '1',

'Referer': 'www.bilibili/video/BV1E4411e7ir',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0',

}

# 请求的OPTIONS的请求头

headers_2 = {

'Host': 'cn-gdgz4-cmcc-v-10.bilivideo',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0',

'Accept': '*/*',

mysql前三名查询语句

'Accept-Language': 'zh,en-US;q=0.7,en;q=0.3',

'Accept-Encoding': 'gzip, deflate, br',

'Access-Control-Request-Method': 'GET',

'Access-Control-Request-Headers': 'range',

javajre怎么配置环境'Referer': 'www.bilibili/video/BV1E4411e7ir',

'Origin': 'www.bilibili',

'DNT': '1',

'Connection': 'keep-alive',

'Cache-Control': 'max-age=0',

}

url = 'upos-sz-mirrorcos.bilivideo/upgcxcode/40/06/91280640/91280640-1-30080.m4s?e=ig8euxZM2rNcNbdlhoNvNC8BqJIzNbfqXBvEqxTEto8BTrNvN session = requests.session()

<(url, headers=headers_2)

res = (url, headers=headers_1)

with open('test.flv', 'wb') as fp:

fp.t)

可以看到，test.flv 有⽂件⼤⼩了。

Image

但打开时显⽰解析错误：

Image

再看⼀下多个不同请求的请求头，只有 range 发⽣明显的改变，⽽且 range 的值⾥的 bytes 参数，说

明这很有可能是⼀个下载的⽂件⼤⼩范围。那么到最后⼀个发送视频请求的的包，把最⼤值复制下来，然后再设置请求头⾥的 range 值为 0-最⼤值，即'Range':'bytes=0-29271958'，然后再次运⾏ py ⽂件。很明显这次请求回来的⽂件⽐之前的⼤了许多，再点击播放，解析成功，有画⾯，但是没有声⾳。

Image

到 url 地址

要到请求 url 肯定不能在在抓包⾥到，可以尝试看下⽹页的源代码。复制⼀点 url 的信息，在⽹页中查，果然到了信息。

Image

这些信息存在 window.__playinfo__ ⾥，然后把这个 json 提取出来，放到⼀个 json ⽂件⾥，再⽤ Firefox 打开。

Image

可以看到，视频的 url 信息就在 'video' 这个键⾥⾯，id 指的就是请求的质量，对应着上⾯的 accept_quality， 'id': 116指就是⾼清1080p60。视频的在⾥⾯，那么⾳频的 url 也在 audio这个键⾥⾯。constantly和consistently

提取也很容易，先把 window._playinfo ⽤正则表达式获取到，再将其转为 python 的 json 对象，然后就可以取出来了。

请求的 range 参数怎么设置呢？可以把其删去，或者设为'range': 'bytes=0-'，这样就会请求⼀个全⽂件了。

## 请求视频页⾯，注意此时的请求头不是同⼀个

res = (url, headers=headers)

text =

text = re.findall(r'<script>window.__playinfo__=(.*?)</script>', text)[0]

json_data = json.loads(text)

# ⼀般有多种格式可选，优先选1080p，没有就选720p。什么？没有720p！这样的视频还有下载的必要？

v_url = json_data['data']['dash']['video'][0]['baseUrl']

a_url = json_data['data']['dash']['audio'][0]['baseUrl']

# 获取准许iframe传参给servlet

session.options(v_url, headers=headers_2)

session.options(a_url, headers=headers_2)

# 获取数据

video_content = (v_url, headers=headers_1).content

audio_content = (a_url, headers=headers_1).content

# 保存

mybatis设置日志级别with open('test.mp3', 'wb') as fp:

fp.write(audio_content)

with open('test.flv, 'wb') as fp:

fp.write(video_content)

弹幕

688IT编程网

python获取json中最大值_详细解析Python爬取bilibili的视频、弹幕以及封...

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python获取json中最大值_详细解析Python爬取bilibili的视频、弹幕以及封...

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

非零金额正则表达式

半小时正则表达式