Python如何实现爬取B站视频--688IT编程网

Python如何实现爬取B站视频

5⽉3⽇晚，央视在《新闻联播》前播放了B站青年宣⾔⽚《后浪》，这是B站⾸次登陆央视黄⾦时段，今天在朋友圈陆续看到相关的视频。最早⽤B站的同学都知道，B站是和A站以异曲同⼯的⿁畜视频及动漫，进⼊到⼤众视野的⾮主流视频⽹站。哔哩哔哩现为国内领先的年轻⼈娱乐、⽂化社区，该⽹站于2009年6⽉26⽇创建，被粉丝们亲切的称为“B站”。

B站之所以⽕，是因为趣味与知识并存。它是⼀个重度宅腐⼆次元集结地。B站包含动漫、漫画、游戏，也有很多由繁到简、五花⼋门的视频，很多冷门的软件和绘画技巧在B站都可以到完整的教学视频。正如⼀句“你在B站看番，我在B站学习”，B 站还是有⼀些质量⽐较好的学习视频。当你在B站上看到喜欢的视频想保存下来时，怎么办呢？

转⼊正题，本篇推⽂主要介绍如何将B站上把喜欢的视频下载下来，帮助更多需要学习的⼩伙伴，详细步骤如下：

⽹页分析

视频下载⽅法

成果展⽰

视频号的加⼊，再度引燃了短视频领域，今天我们爬取B站的每天播放量最多的⼩视频，其他类型的视频可以参考这个⽅法。

⽹页分析

python 爬虫教学

⽹址为：

'vc.bilibili/p/eden/rank#/?tab=全部'

我们可以看到Request URL这个属性值，我们向下滑动加载视频的过程中，发现只有这段url是不变的。next_offset 会⼀直变化，我们可以猜测，这个可能就是获取下⼀个视频序号，我们只需要把这部分参数取出来，把 next_offset 写成变量值，⽤JSON 的格式返回到⽬标⽹页即可。

视频下载⽅法

上⼀部分已对⽹页进⾏了分析，现在我们可以利⽤⽅法来获取B站上的⼩视频。

核⼼代码

def get_json(url):

headers = {

'User-Agent':

'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

}

params = {

'page_size': 10,

'next_offset': str(num),

'tag': '今⽇热门',

'platform': 'pc'

}

try:

html = (url, params=params, headers=headers)

return html.json()

except BaseException:

print('request error')

pass

def download(url,path):

start = time.time() # 开始时间

size = 0

headers = {

'User-Agent':

'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

}

response = (url,headers=headers,stream=True)

chunk_size = 1024

content_size = int(response.headers['content-length'])

if response.status_code == 200:

with open(path,'wb') as file:

for data in response.iter_content(chunk_size=chunk_size):

file.write(data)

size += len(data)

成果展⽰

上⼀部分我们已经展⽰了如何⽤Python下载视频的⽅法，下⾯我们进⾏效果展⽰以上就是本⽂的全部内容，希望对⼤家的学习有所帮助，也希望⼤家多多⽀持。

688IT编程网

Python如何实现爬取B站视频

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Python如何实现爬取B站视频

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式