python爬⾍:爬取酷狗⾳乐榜单中的⾳乐信息并存储到MySQL(附源码)⽬录
获取酷狗⾳乐榜单中的⾳乐信息,这⾥我以“⽹络红歌榜”为例
获取榜单中的 “⾳乐名称”,“歌⼿”,“⾳乐下载地址”,并将这些信息存储到MySQL数据库中,最后完成的效果图如下:
具体思路
查看榜单的源代码,我们可以得到歌曲播放页的url,歌曲名称和歌⼿
获取歌曲名称和歌⼿
所以我们可以直接在源代码中将歌曲名称和歌⼿提取出来
获取歌曲下载地址
进⼊到⾳乐播放页,F12查看⼀下
进⼊到播放页查看源代码竟然能够看到歌曲的下载地址,这样⼀来,事情就变得简单了,直接使⽤播放页的url进⾏爬取但就是获取不到这个地址,原本以为是哪⾥出了问题,结果右键查看源代码,源代码中压根就没有这个url
所以要注意的是,虽然这⾥能够看到⾳乐的下载地址,但是当你右键查看源代码时是看不到的,因为这⾥的下载地址是动态添加进去的不是事先写进去的,看来还是想的太过简单了
既然在这⾥获取下载地址不⾏,那我们就换⼀种途径,在⽹页的全部⽂件中搜索下载地址的部分关键字,我们可以得到这个⽂件
展开这个⽂件我们可以得到⾳乐的下载地址
html播放音乐代码
既然可以从这个⽂件中获取到歌曲的下载地址,那我们接下来就可以对这个⽂件的url进⾏分析
乍⼀看似乎没有什么规律,但是我们可以对其进⾏缩减,只保留最关键的部分,经过反复的测试,⽂件的url可以缩减为这三个部分的组成
这个⽂件的url可以写成:
wwwapi.kugou/yy/index.php?r=play/getdata&hash=&album_id=
那我们现在要获取的就是每⾸歌曲的hash值和album_id值
再次查看榜单的源代码,在最后我们可以看到⼀条重要数据
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论