Python爬⾍爬取喜马拉雅⾳频
Python爬⾍|爬取喜马拉雅⾳频
喜马拉雅是知名的专业的⾳频分享平台,⽤户规模突破4.8亿,汇集了有声⼩说,有声读物,⼉童睡前故事,相声⼩品等数亿条⾳频,成为国内发展最快、规模最⼤的在线移动⾳频分享平台。今晚分享突破障碍,探秘喜马拉雅的天籁之⾳,实现实时抓取,并保存到本地!西地那非用药说明书
知识点:
开发环境:windows pycharm requests json
运⾏此段代码有惊喜
import tkinter as tk
componentform翻译window = tk.Tk()
c = b'\xe5\x8a\xa0\xe6\x89\xa3\xe6\x89\xa3\xe7\xbe\xa4:\xe5\x85\xab\xe4\xb9\x9d\xe4\xba\x94\xe4\xb8\x83\xe4\xb9\x9d\xe4\xb8\x83\xe4\xb8\x83\xe4\xb
a\x94\xe4\xb8\x80,\xe9\xa2\x86\xe5\x8f\x96Python\xe5\xad\xa6\xe4\xb9\xa0\xe8\xb5\x84\xe6\x96\x99,\xe4\xbb\xa5\xe5\x8f\x8a\xe6\x96\x87\xe7\xab\xa0\ xe4\xbb\xa3\xe7\xa0\x81'
labal = tk.Label(
execution英语
window,
text=c.decode('utf-8'),
bg='pink',
font=('微软雅⿊',15),
width=50,
height=20,
wraplength=300,
)
labal.pack()
window.mainloop()
dedecms模板文件不存在⽹络反爬技术
⽂件的操作
⽹络请求
数据的转换
数据类型的使⽤
1. ⾸先导⼊requests库
import requests
2. 将上⾯获得的json数据转换成字典格式(需要导⼊json模块)
import json
3. header = {“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
儿童python入门教程Chrome/75.0.3770.100 Safari/537.36”}
这是应对反爬⾍机制,伪装成合法浏览器⽽添加,本来复制过来的是User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36因python不识别User-Agent,所以将User-Agent⽤引号引起来,同时将冒号后⾯的内容也⽤引号引起来即可,这样就有了合法信息;该信息的位置:按F12->Network->headers->RequestHeaders->User-Agent: Mozilla/5.0…详见下图
3 将获取的数据赋值给response,打印response
response = (url).text
print(response)
小数转化为二进制数结果未获取到数据,因为⽹站做了反爬⾍机制,所以要在上⾯添加header伪装成合法⾝份
\5. 因为上⾯添加了header变量,所以应该把第3步替换为:
response = (url,headers = header).text
print(response)
\8. 循环遍历链接及⽂件名
for audio_info in audio_data:
music_url = audio_info[‘src’]
music_name = music_url.split(’/’)[-1]
9. 将获得的数据保存在硬盘music中
img
⿏标左键点击左边栏的music⽂件夹,将其打开,右键随便⼀⾸歌曲,点击“show in explorer”即可打开⾳频⽂件。
注意事项
代码操作的顺序是1-9,完整顺序是1,6,4,2,3,5,7,8,9;这是因为代码存在BUG 的时候要不断的添加删除项

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。