1引言
在互联网信息时代,人们对于信息的搜集越发高要求化。大家都希望能通过越来越短的时间去尽可能地搜集到更全面更清晰的数据信息,以便为后期数据分析提供高质量的基础数据,从而应对市场客户的需求和市场行情的飞速变化。基于Python的数据爬虫技术是目前使用认知度最高的方法之一,它能够以最快捷的方式最全面地反馈出一个网站或是APP等的用户体验数据,达到数据收集者的可阅读要求。获取数据的背后自然离不开一个强大的开发库,而Py-thon拥有的标准库,提供了系统管理、网络通信、文本处理、数据库接口、图形系统、XML处理等额外的功能。同时Py-thon社区提供了大量的第三方模块,使用方式与标准库类似。它们的功能覆盖科学计算、Web开发、数据库接口、图形系统等多个领域,并且大多成熟而稳定。基于这些条件和技术,使用者便可以轻松地洞察市场的发展行情,及时做出调整,弥补不足,最高效地达到客户需求,同时也方便个人信息统计和数据分析。为了能直观地展示民谣歌手的情绪、歌词词频统计以及歌手对时光和城市的偏爱程度,本文利用Py-thon语言的大数据收集和分析能力,通过分析网易云民谣top10歌手的作品来探索歌手所感受到的社会信息。
2基于Python的网易民谣歌词数据获取
2.1Python概述
Python是一种面向对象的解释型计算机程序设计语言,源代码和解释器CPython遵循GPL协议。作为实fonts下载安卓
用开发一般使用Python快速生成程序的原型,然后对其中有特别要求的部分,再用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库[1]。Python语言中强大的库让其可以处理各种工作[2],包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、、XML、HT-ML、WA V文件和其他与系统有关的操作。它有多种编程方式,如利用系统编程提供API,能方便进行系统维护和管理;也能利用数据库编程,使程序员通过遵循Python DB-API规范的模块与Microsoft SQL Server、Oracle,Sybase,DB2,MySQL、SQLite等数据库通信。因此,本文主要利用Python 语言BeautifulSoup API接口和SnowNLP、jieba等类库对文段歌词中的内容进行词性标注、分词、重点摘取,以获得所需数据集,从而对网易民谣歌词进行数据分析。
2.2数据来源
信息化的数据来源多样化,包括站内的统计工具、搜索引擎搜索结果、行业大数据、运营数据以及使用最频繁的web日志数据,而这些数据却以各种格式数据文件呈现,需要利用Python爬虫技术将搜索引擎数据、应用APP和网页中的html文档之间的链接关系进行关联和采集[3],从而获取现有数据,或者是通过网站的编程接口(API)进行数据的抓取和收集。
2.3Python爬虫关键技术分析
基于Python的网易民谣歌词数据分析
方子菱匡芳君*
(温州商学院信息工程学院,浙江温州325035)
[摘要]随着大数据时代下的数据来源和获取日趋重要,基于Python的爬虫技术已成为获取数据工具的研究热点之一。本文应用Python爬虫关键技术对网易云季度歌词以及歌词相关文章的信息采集和汇总,并对其汇总后的网易歌词利用Python类库和数据分析技术对歌手情绪、词频统计、词云可视化以及歌手对时光和城市偏爱程度等进行数据分析。研究结果表明,当下民谣歌手情绪稳定且有激情,能通过歌曲表达其正面情感,以及对当下时光与繁华城市的喜好。
[关键词]Python;爬虫;第三方库;词云;数据统计与分析
中图分类号:TP393.092文献标识码:A文章编号:1008-6609(2018)04-0053-04
——————————————
作者简介:方子菱(1997-),女,江苏南京人,本科,研究方向为数据分析、软件开发等。
*通信作者:匡芳君(1976-),女,湖南衡阳人,博士,教授,研究方向为智能与多目标优化、模式识别与数据分析、信息安全等。
爬虫是指向网站发起请求,获取资源后分析并提取有用
数据的程序;从技术层面来说就是通过程序模拟浏览器请求
站点的行为,把站点返回的HTML 代码/JSON 数据/二进制数
据(图片、视频)爬到本地,进而提取自己需要的数据,存放起
来使用[4,5],数据爬取步骤如图1所示。由于本文主要是获取
网易云音乐民谣的所有歌曲,因此网易民谣歌词数据获取流
程图如图2所示。
图1数据爬取步骤
图2网易民谣歌词数据获取流程图(1)目标确定和分析
网易歌曲链接地址为:music.163/discover/
playlist/?cat=%E6%B0%91%E8%B0%A3&order=hot ,在此链
接地址Response 中可以看到源代码以及页面的具体信息,通
过在Headers 里可以看到request URL ,从而利用URL 的地址
链接进行接下来的信息采集。
图3数据源代码
(2)编写python 爬虫代码
首先在下载网页内容前,需要进行download 代码封装,
进而对下载的信息有了安全性和隐蔽性的保障,限制了一定的访问者,必要地要通过接口才可进行访问,关键代码如下:
线程死锁的四个必要条件继而在解析网页内容时,需要使用第三方插件Beauti-
fulSoup API ,关键代码如下:
(3)执行爬虫
整个爬虫爬取信息的重点即是通过get_music()方法获
取top10的歌手以及歌词内容并保存到TXT 文件中,关键代
码如下:
通过执行爬虫代码爬取网址链接到的网页内容,并保存到设置途径的集合中去,
margin属性是用来控制python请求并解析json数据最终整理汇总后的数据集如图4所
示。
图4获取的数据集
3基于Python 的网易民谣歌词数据分析
3.1歌手情绪数据分析
本节运用Python类库(SnowNLP)对民谣top10歌手的歌词文本进行情绪分析,关键代码如下:
运用SnowNLP后对top10民谣歌手的歌词进行情感分析,得到的民谣歌手情绪统计图如图5所示。从图5可以看出,近期的民谣歌手们情绪都比较高涨,似乎都在通过歌词里的词频向大家展示他们所感受到的社会信息。
图5民谣歌手情绪统计图
3.2运用词云统计歌词词频与可视化
为了让数据分析出来更加直观清晰,首先运用jieba库进行分词和词频统计分析,得到歌词中词频统计信息,歌词词频统计关键代码如下:
然后,通过词频统计后将数据导入到Excel表格中,统计结果如图6所示。
图6词频数据统计图
最后,利用词云的可视化功能将歌词词频以更具视觉效果方式展示,如图7所示。
图7词云可视图
3.3民谣歌者喜好数据分析
通过词频的统计和分析,可以发现这些民谣歌手会因为生活中的一系列变化,而改变他们的曲调辞藻;常常提及时光、南方、家、背离,他们用歌曲表达情感,而这里运用数据精确分析报告歌手们的情感,使他们的表达更加直接集中。为了能够让读者更进一步地体会这些民谣歌者的内心与喜好,又通过词频分析他们到底是偏爱什么时光以及城市,得到民谣歌手偏爱的时光和喜爱的城市统计图,如图8和图9所示。
从图8时光数据分析图可以看出,民谣歌者们更喜爱今天,喜欢当下能把握的时光与生活,珍惜眼前。从图9喜爱的城市分析图可以看出,如今最热门、最招人喜爱的城市莫过于北京和成都两地。
图8民谣歌手偏爱的时光
、、
图9
民谣歌手喜爱的城市
数据蛙数据恢复
4结束语
本文利用Python语言和数据分析技术对网易民谣歌词进行数据分析,首先通过使用基于Python的爬虫
技术获取网易民谣歌词相关信息,然后利用Python类库SnowNLP和jie-ba以及词云可视化对网易民谣歌词挖掘有价值的信息并进行可视化展示。下一步工作将重点针对流动性的动态数据爬取,考虑数据获取的质量和安全性,以及如何在短时间获取单个客户端动态使用数据,并保证数据真实、安全、可靠。
参考文献:
[1]夏火松,李保国.基于Python的动态网页评价爬虫算法[J].软件工程,2016,19(2):43-46.
[2]周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134.
[3]陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016(9):97-99.
[4]郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249.
[5]熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017(9):35-36.
[6]严婷,文欣秀,赵嘉豪,等.基于Python的可视化数据分析平台设计与实现[J].计算机时代,2017,(12):54-56.
Data Analysis on NetEase Ballad Lyrics Based on Python
自助建站办法FANG Zi-ling KUANG Fang-jun*
(Wenzhou Business College,Wenzhou325035,Zhejiang)
【Abstract】Data resource and procurement are getting increasingly important in big data era.Crawler technology based on Py-thon has become one of the research hotspots on data acquisition tool.This article applies Python crawler technologies to collect and summarize the information of Netease Cloud's quarterly lyrics and lyrics-related articles.The singer emotion data,word frequency statistics,word cloud visualization,and the degree of singer’preference for time and city are analyzed by Python library and data analysis technology.The research results show that the ballad singer is stable and passionate,and can express his positive feelings through songs,and enjoy the current time and prosperous cities.
【Keywords】Python;crawler;third party library;word cloud;data statistics and analysis
—————————————————————————————————————————————————————(上接第46页)
Design of Intelligent Supervision and Evaluation System Based on Cloudview
ZHANG Yun
(Wuxi V ocational Institute of Commerce,Wuxi214153,Jiangsu)
【Abstract】Intelligent supervision and evaluation system based on Cloudview is a paperless system for modern education,which is applied to supervision and evaluation of various types of schools.Educational supervision organ and educators can improve the training quality and raise the level of education by evaluation guide with the help of quantitative and objective evaluation of the sys-tem.
【Keywords】Cloudview;intelligent supervision and evaluation system;cloud platform;higher vocational colleges
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论