python爬取⽹易云⾳乐排⾏榜实例代码
⽬录
⽹易云⾳乐排⾏榜歌曲及评论爬取
⼀、模拟登录
⼆、排⾏榜数据爬取
三、排⾏榜评论获取
总结
⽹易云⾳乐排⾏榜歌曲及评论爬取
主要注意问题:selenium 模拟登录、iframe标签定位、页⾯元素提取。
在利⽤selenium定位元素并取值的过程中遇到问题。⽐如xpath正确但⽆法定位,在进⾏翻页提取评论的过程中,利⽤selenium似乎不能提取不同页的数据,⽐如,明明定位的第三页的评论数据,⽽只能返回第⼀页的评论数据。
⼀、模拟登录
selenium 定位元素模拟⼈的操作进⾏登录,直接上代码:
//模拟登录
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdrivermon.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains
from lxml import etree
import time
from datetime import datetime,timedelta
wyy_url = 'music.163/'
driver = webdriver.Chrome()
<(wyy_url)
driver.maximize_window() #全屏
time.sleep(2)
driver.find_element_by_xpath("//a[@class = 'link s-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("//a[@class='u-btn2 other']").click() #选择其他⽅式登录
#账号、密码登录
driver.find_element_by_xpath("//input[@type='checkbox']").click() #同意条款
time.sleep(0.5)
driver.find_element_by_xpath("//a[@class='u-btn2 u-btn2-2']").click()
#选择⼿机号密码登录
driver.find_element_by_xpath("//a[@class='f-fr s-fc3 pwdlogin']").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx') #这⾥输⼊你的id
driver.find_element_by_id("pw").send_keys('xxx') #这⾥输⼊密码
time.sleep(1)
#点击登录
driver.find_element_by_xpath("//a[@class='j-primary u-btn2 u-btn2-2']").click()
time.sleep(1)
⼆、排⾏榜数据爬取
当时尝试直接⽤selenium定位标签取值,并没有返回有效结果。在后⾯爬取评论时,也遇到此问题。于是先获取页⾯内容在进⾏分析。
// 排⾏榜
base_url = "music.163/#/discover/toplist?id="
bang_typical = {'飙升榜':19723756,'新歌榜':3779629,'原创榜':2884035,'热歌榜':3778678}
#选择榜单
bang = input('请输⼊榜单:')
#构造榜单对应的链接
url = base_url + str(bang_typical[bang])
print('开始分析:-%s' %(bang))
#进⼊榜单
<(url)
time.sleep(3)
#iframe标签定位,必要的,否则⽆法定位其他标签
_iframe = driver.find_element_by_xpath("//iframe[@id='g_iframe']") # 到iframe标签
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text = ute_script("return document.documentElement.outerHTML")
#获取页⾯
html = etree.HTML(page_text)
trs = html.xpath('//tbody/tr')
rank_list = []
title_list = []
span_list = []
singer_list = []
for tr in trs:
rank = tr.xpath(".//span[@class='num']/text()")[0] #注意xpath获取到的是列表,需提取其元素
title = tr.xpath(".//b/@title")[0]
span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]
singer = tr.xpath(".//div[@class='text']/span/@title")[0]
rank_list.append(rank)
title_list.append(title)
span_list.append(span)
singer_list.append(singer)
#输出榜单结果
df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'时长':span_list,'歌⼿':singer_list})
三、排⾏榜评论获取
主要是评论⽇期的格式转换,评论内容的清洗
// 评论
# ⽇期清洗函数
def change_time(time):
now = w()
day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #计算昨天
day = now.strftime('%Y-%m-%d')
year = now.strftime('%Y')
if '年' in time: #⾮今年
new_time = place('年','-').replace('⽉','-').replace('⽇','')
elif '昨天' in time:
new_time = place('昨天',day_y+' ')
elif '前' in time: #前天
minut = int(time[:time.index('分')])
new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')
elif len(time) == 5: #今天
new_time = day + ' ' + time
else: #最近 **⽉**⽇ **:**
y = '2021-'
time = place('⽉','-').replace('⽇','')
new_time = y + time
return new_time
#评论清洗
def change_review(r):
if ':' in r:xpath语法 python
r_ = r.split(':')[1]
else:
r_ = r
return r_
#评论点赞
def change_likes(l):
if l != []:
l_ = int(l.split('(')[1].split(')')[0])
else:
l_ = 0
return l_
#拉动滚动条⾄翻页按钮处
#获取页⾯信息
num = input('请输⼊需要爬取的页⾯总数:') #想要爬取评论的页数,
#这⾥的思路是先通过翻页将获取到的所有页⾯的所有内容存⾄列表,再对列表遍历。
#因为当时直接⽤selenium 定位返回结果不对,当然你们也可以⽤selenium直接试试。
html_list=[]
for i in range(int(num)):
page_text = ute_script("return document.documentElement.outerHTML")
html = etree.HTML(page_text)#获取页⾯
html_list.append(html)
#翻页
driver.find_elements_by_xpath("//div[contains(@class,'u-page')]/a")[-1].click()
time.sleep(4)
WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "//div[@class='cmmts j-flag']")))
print(f'第{i+1}页爬取成功')
rev_list=[] #所有评论的列表
dat_list=[] #对应⽇期的列表
for review_page in html_list:
raw_reviews = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取页⾯所有评论
raw_reviews_ = [i for i in raw_reviews if ":" in i] #保证长度⼀致
rv_date = review_page.xpath("//div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()") review_list = [change_review(r) for r in raw_reviews_]
date_list = [change_time(d) for d in rv_date]
d(review_list)
d(date_list)
print('分析完成')
driver.quit()
运⾏结果:
1、排⾏榜:
2、评论:
总结
哈哈,⽤了快两年的csdn, 光顾着⽩嫖⽂章。这也是我的第⼀个帖⼦,也没啥经验,有啥问题的,还请各位指正!
到此这篇关于python爬取⽹易云⾳乐排⾏榜数据代码的⽂章就介绍到这了,更多相关python爬取⽹易云内容请搜索以前的⽂章或继续浏览下⾯的相关⽂章希望⼤家以后多多⽀持!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论