2019年第12期
218研究与探讨
信息技术与信息化
基于数据可视化和线性回归的豆瓣图书榜单数据分析
朱涤尘* ** 夏 换 ZHU Di-chen XIA Huan
摘 要 图书阅读一直以来都是作为大众重要的汲取知识和提高文学素养的重要方式之一。随着互联网技术的不
断发展,很多网站推出了图书榜单这一推荐模式,根据用户的打分和评论来对收到较多好评的书籍进行推荐。然而在阅读用户水平参差不齐、个人喜好不同的情况下,往往打分制并不能很好的体现数据的规律,精准地推荐优秀的图书。本文提出了以python 为工具,基于数据可视化和词云分析的图书榜单数据分析方法,更深层次的对榜单数据进行挖掘,寻其内在的规律,为读者的选择提供更精准地推荐,同时优化了分类方法,对图书数据分析发展和厂商选择判断提供助力。
关键词 图书榜单分析;数据可视化;词云分析;线性回归;Python
doi:10.3969/j.issn.1672-9528.2019.12.070
* 贵州经贸职业技术学院科技处 贵州都匀 558000** 贵州财经大学信息学院 贵州贵阳 550025
1 豆瓣图书榜单数据分析的必要性
豆瓣(douban)是一个社区网站。创立于2005年3月6日。该网站以书影音起家,提供关于书籍、电影、音乐等作品的信息以及评论,其大部分信息和数据都由用户提供,是Web 2.0网站中具有特的一个网站。它独特地将品味(图书、电影、音乐、游戏)、表达(评分、评论)、交流(友邻、小组)结合在一起,推出了具有其自身特的分享、社交体系。2012年8月,豆瓣宣布其月度覆盖独立用户数(Unique Visitors)已超过1亿,日均PV 为1.6亿。 2013年第二、三季度的豆瓣月度覆盖独立用户数均达2亿,较去年同期增长一倍。[1]由此可见,豆瓣已经逐渐成为我国主流图书评分门户网站,其图书榜单很大程度上会影响用户的阅读倾向,因此针对豆瓣图书榜单数据进行分析是十分有必要的。
虽然豆瓣的用户提供评分指标体系可以在一定程度上反应图书的优劣,但由于用户水平程度不同、喜好不同,评分或多或少会带有一部分主观因素,不能很好地做出推荐。基于以上文本,本文提出了利用数据可视化技术和线性回归分析,深入挖掘豆瓣图书榜单中数据的规律,为读者和用户和选择提供帮助,为门户网站和厂商的选择做出参考。2 图书榜单研究现状
关于python的书目前的图书榜单研究中,主要集中在图书榜单中图书种
类、图书推广、借阅排行等方面。亚马逊中国[2]针对2018年排行榜中电子书和纸质书的增长趋势进行分析。徐亚茹[3]针对图书个性化标签和推荐系统做出优化。孙胜良[4]对高校图书馆阅读服务的推广做出探讨。庄莹[5]
就中国图书排行榜的统计和分类做出研究。胡跃鹏[6]对豆瓣图书排行的运营策略做出研究。
以上研究都是利用较为基本的统计学和图书馆学方法对图书榜单做出研究,并未深层次挖掘图书榜单的潜在规律。本文提出基于Python 的数据可视化分析研究方法,对豆瓣图书榜单做出更深入的分析,为广大用户、门户网站和厂商做出决策辅助。
3 豆瓣图书榜单研究框架及过程
本文旨在对豆瓣图书榜单TOP250进行数据分析,主要包括数据抓取、数据存储、数据预处理、数据分析和实验评估五个步骤,具体流程如下:
(1)首先采用Python 和人工采集抓取图书榜单数据,如图1所示。
(2)提取图书榜单相关的特征如图书名称、作者、评分、评论数、出版社、出版年份等并存储至本地,包括等。
(3)分别对数值数据和文本数据进行预处理操作,包括异常值处理、数据清洗、缺失数据补齐等。
(4)数据分析主要包括数据可视化和线性回归分析两块,通过Echarts、热点词云等直观的展示影响图书榜单的因素,
利用线性回归分析评分和评论数的关系。
(5)最后评估实验结果并得出结论。
2019年第12期219
研究与探讨
信息技术与信息化
4 实验分析及结果评估
本文数据集采用Python 自定义爬虫收集豆瓣图书榜单TOP250,所抓取的字段包括名称、作者、评分、评论数、出版社等。之后进行异常值处理、缺失补偿、数据清洗和中文分词,将缺失的数据条目进行补充,修成出现偏差的数据,过滤不能识别的符号并进行分词。以此来为接下来的分析打好基础。
4.1 作者名称词云分析
图2 作者名称词云
在Python 中导入词云工具,对图书榜单TOP250的作者进行分析并成图,生成结果如下。其中罗琳、金庸、王小波、村上春树占有较高的比重。4.2 作者国籍可视化分析
根据图书榜单TOP250作者国籍数据整理,通过代码实
现得出条形图,其中国籍为中国的作者占比最高。
图
3 作者国籍条形图
图1 豆瓣图书榜单数据
2019年第12期
220研究与探讨
信息技术与信息化
将数据导入Echart,根据其网页提供的代码,
绘制饼图。图4 作者国籍饼图
4.3 评论数与评分线性回归分析
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,非常适合用于分析评论数和评分之间的关系。本文利用代码实
现对豆瓣图书榜单的评论数和评分的分析。
图5 线性回归分析代码
得出的结果如图6
所示:
图6 线性回归结果
可以得出两者并无直接关系。5 结语
传统的图书榜单分析方法较为单一,并未深层次挖掘榜单中每个数据的含义和关系,本文提出了基于数据可视化和线性回归的分析方法,对豆瓣图书榜单TOP250进行研究,得出以下结论:
图书作者词云分析得出,罗琳、金庸、王小波、村上春树是受到较多用户喜欢图书的作者,他们的作品可以作为读者比较高优先级的选择,同时会图书馆藏书、书店采购也有一定的推荐作用。
图书作者国籍化分析得出,豆瓣用户对我国作者的作品喜爱程度较高,同时也应保证国内外文学同步发展,探究国外作品流入较少的原因,例如翻译、版权、价格等方面。
评论数和评分线性回归分析得出,二者并无直接关联。因此例如在看到高评分少评论的图书时并不要盲目相信,可能会出现“刷评分”行为,也有可能是因为其受众较小,只适合某个体的读者,但是在该体有相当好的反馈。在此分析基础上需要综合用户自己的需求和喜好来进行判断。
综上,本文提出的研究方法对豆瓣图书榜单TOP250进行了较为深入的分析,该方法可以在用户对图
书的选择上提出更好的建议,同时也给了厂商和门户网站数据支持。本文的研究成果具有较高的理论意义,可以在图书推广、门户网站榜单制作、读者帮助等领域广泛应用,为国内图书产业提供助力。
参考文献:
[1] 百度百科. 豆瓣[EB/OL]. [2019-10-15]. baike.baidu/item/%E8%B1%86%E7%93%A3%E7%BD%91/5549800?f romtitle=%E8%B1%86%E7%93%A3&fromid=7803606&fr=ala
ddin
[2] 亚马逊中国2018年年中图书排行榜单显示纸书和电子书“此涨彼涨”趋势明显[J].新闻知识,2018(08):30.
[3] 徐亚茹. 基于标签的图书个性化推荐系统的设计与研究[D].山东师范大学,2018.
[4] 孙胜良.基于图书榜单的高校图书馆经典阅读推广服务探讨[J].智库时代,2018(27):252+254.
[5] 庄莹.中国图书排行榜研究[J].中国出版,2015(12):64-69.胡跃鹏. 豆瓣图书排行榜运营策略研究[D].河北大学,2018.【作者简介】
朱涤尘(1995-),男,安徽合肥人,硕士,主要研究方向:数据分析、图书情报;
夏换(1981-),男,湖南永州人,博士,教授,主要研究方向:计算机仿真、大数据分析。
(收稿日期:2019-10-18)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论