python爬取网易云音乐排行榜实例代码--688IT编程网

python爬取⽹易云⾳乐排⾏榜实例代码

⽬录

⽹易云⾳乐排⾏榜歌曲及评论爬取

⼀、模拟登录

⼆、排⾏榜数据爬取

三、排⾏榜评论获取

总结

⽹易云⾳乐排⾏榜歌曲及评论爬取

主要注意问题：selenium 模拟登录、iframe标签定位、页⾯元素提取。

在利⽤selenium定位元素并取值的过程中遇到问题。⽐如xpath正确但⽆法定位，在进⾏翻页提取评论的过程中，利⽤selenium似乎不能提取不同页的数据，⽐如，明明定位的第三页的评论数据，⽽只能返回第⼀页的评论数据。

⼀、模拟登录

selenium 定位元素模拟⼈的操作进⾏登录，直接上代码：

//模拟登录

import pandas as pd

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdrivermon.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.chrome.options import Options

from selenium.webdriver import ActionChains

from lxml import etree

import time

from datetime import datetime,timedelta

wyy_url = 'music.163/'

driver = webdriver.Chrome()

<(wyy_url)

driver.maximize_window() #全屏

time.sleep(2)

driver.find_element_by_xpath("//a[@class = 'link s-fc3']").click()

time.sleep(2)

driver.find_element_by_xpath("//a[@class='u-btn2 other']").click() #选择其他⽅式登录

#账号、密码登录

driver.find_element_by_xpath("//input[@type='checkbox']").click() #同意条款

time.sleep(0.5)

driver.find_element_by_xpath("//a[@class='u-btn2 u-btn2-2']").click()

#选择⼿机号密码登录

driver.find_element_by_xpath("//a[@class='f-fr s-fc3 pwdlogin']").click()

time.sleep(1)

driver.find_element_by_id("p").send_keys('xxx') #这⾥输⼊你的id

driver.find_element_by_id("pw").send_keys('xxx') #这⾥输⼊密码

time.sleep(1)

#点击登录

driver.find_element_by_xpath("//a[@class='j-primary u-btn2 u-btn2-2']").click()

time.sleep(1)

⼆、排⾏榜数据爬取

当时尝试直接⽤selenium定位标签取值，并没有返回有效结果。在后⾯爬取评论时，也遇到此问题。于是先获取页⾯内容在进⾏分析。

// 排⾏榜

base_url = "music.163/#/discover/toplist?id="

bang_typical = {'飙升榜':19723756,'新歌榜':3779629,'原创榜':2884035,'热歌榜':3778678}

#选择榜单

bang = input('请输⼊榜单：')

#构造榜单对应的链接

url = base_url + str(bang_typical[bang])

print('开始分析：-%s' %(bang))

#进⼊榜单

<(url)

time.sleep(3)

#iframe标签定位，必要的，否则⽆法定位其他标签

_iframe = driver.find_element_by_xpath("//iframe[@id='g_iframe']") # 到iframe标签

driver.switch_to.frame(_iframe)

time.sleep(1)

page_text = ute_script("return document.documentElement.outerHTML")

#获取页⾯

html = etree.HTML(page_text)

trs = html.xpath('//tbody/tr')

rank_list = []

title_list = []

span_list = []

singer_list = []

for tr in trs:

rank = tr.xpath(".//span[@class='num']/text()")[0] #注意xpath获取到的是列表，需提取其元素

title = tr.xpath(".//b/@title")[0]

span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]

singer = tr.xpath(".//div[@class='text']/span/@title")[0]

rank_list.append(rank)

title_list.append(title)

span_list.append(span)

singer_list.append(singer)

#输出榜单结果

df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'时长':span_list,'歌⼿':singer_list})

三、排⾏榜评论获取

主要是评论⽇期的格式转换，评论内容的清洗

// 评论

# ⽇期清洗函数

def change_time(time):

now = w()

day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #计算昨天

day = now.strftime('%Y-%m-%d')

year = now.strftime('%Y')

if '年' in time: #⾮今年

new_time = place('年','-').replace('⽉','-').replace('⽇','')

elif '昨天' in time:

new_time = place('昨天',day_y+' ')

elif '前' in time: #前天

minut = int(time[:time.index('分')])

new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')

elif len(time) == 5: #今天

new_time = day + ' ' + time

else: #最近 **⽉**⽇ **：**

y = '2021-'

time = place('⽉','-').replace('⽇','')

new_time = y + time

return new_time

#评论清洗

def change_review(r):

if '：' in r:xpath语法 python

r_ = r.split('：')[1]

else:

r_ = r

return r_

#评论点赞

def change_likes(l):

if l != []:

l_ = int(l.split('(')[1].split(')')[0])

else:

l_ = 0

return l_

#拉动滚动条⾄翻页按钮处

#获取页⾯信息

num = input('请输⼊需要爬取的页⾯总数：') #想要爬取评论的页数，

#这⾥的思路是先通过翻页将获取到的所有页⾯的所有内容存⾄列表，再对列表遍历。

#因为当时直接⽤selenium 定位返回结果不对，当然你们也可以⽤selenium直接试试。

html_list=[]

for i in range(int(num)):

page_text = ute_script("return document.documentElement.outerHTML")

html = etree.HTML(page_text)#获取页⾯

html_list.append(html)

#翻页

driver.find_elements_by_xpath("//div[contains(@class,'u-page')]/a")[-1].click()

time.sleep(4)

WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "//div[@class='cmmts j-flag']")))

print(f'第{i+1}页爬取成功')

rev_list=[] #所有评论的列表

dat_list=[] #对应⽇期的列表

for review_page in html_list:

raw_reviews = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取页⾯所有评论

raw_reviews_ = [i for i in raw_reviews if "：" in i] #保证长度⼀致

rv_date = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()") review_list = [change_review(r) for r in raw_reviews_]

date_list = [change_time(d) for d in rv_date]

d(review_list)

d(date_list)

print('分析完成')

driver.quit()

运⾏结果:

1、排⾏榜：

2、评论：

总结

哈哈，⽤了快两年的csdn, 光顾着⽩嫖⽂章。这也是我的第⼀个帖⼦，也没啥经验，有啥问题的，还请各位指正！

到此这篇关于python爬取⽹易云⾳乐排⾏榜数据代码的⽂章就介绍到这了，更多相关python爬取⽹易云内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持！

688IT编程网

python爬取网易云音乐排行榜实例代码

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python爬取网易云音乐排行榜实例代码

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式