市场调研与统计分析
9
基于Python 及商业智能的百年奥运会数据可视化分析
王从瑜,石弘利,赵炜*
(金陵科技学院计算机工程学院)
摘要:一幅图胜过千言万语。可视化分析是大数据分析的重要方法。Python是常用的用于数据分析和可视化的语言,其具有强大的数据处理能力,但在数据可视化方面较难实现丰富的视觉效果;商业智能具有强大的数据可视化功能,但在数据处理能力上稍显不足,难以满足数据需要较多的预处理及数据结构较为复杂等情况。本文将Python和商业智能结合使用进行数据可视化,将Python强大的数据处理效果和商业智能的强大数据可视化功能相结合,对1896年到2016年共120年约27万条的运动员数据及其获奖情况等数据进行可视化分析,以期取长补短来达到更好的数据处理和可视化效果。可视化分析中发现了申办奥运会的积极性下降等现象与问题,期望能引起有关人士的思考与重视,对奥运会发展产生一定的积极影响。
关键词:Python;商业智能;可视化;大数据; FineBI 一、背景与研究意义随着大数据时代的到来,人们在数据的价值上逐渐取得共识。一幅图胜过千言万语,人类从外界获得的信息约有80%以上来自于视觉
系统[1,2]
,以直观的可视化的图形展示数据,往往能够帮助用户发现数据背后隐藏的现象、关系等信息。因此数据可
视化是展现数据价值的重中之重 [3] 。目前,数据可视化领域工具种类较多,其侧重也各不相同,为了更好地了解这些工具的特点,现选择一些最常使用的信息图
表工具按照入门级工具、信息图表工具及高级分析工具三类在
表格1中进行简单对比介绍。表1 常用可视化工具对比表
数据可视化 工具分类具体工具数据可视化工具功能特点
入门级工具Excel EXCEL 是最常用的入门级工具,既可以处理文字信息也可以整理数据,但信息在颜、线条和样式上可选择的种类较为有限。
信息图表工具
ECharts JavaScript 框架,开源、免费、功能丰富、纯JavaScript 的图表库。
FineBI 一种商业智能软件,具有界面清晰、易于操作和上手等特点。适合处理海量数据,图表种类繁多,输出方便、易于共享。使用者只需将大量数据拖放到数字“画布”上,就能快速地创建出各种图表,可视化效果丰富。D3
D3可以处理数字、数组、字符串或对象,也可以处理JSON 和GeoJSON 数据。D3最擅长处理矢量图形,能够提供除线性图和条形图之外的大量的复杂图表样式。
高级分析工具
Python 一种面向对象的解释型计算机程序设计语言,Python 具有简单、易学、免费开源、可移植性好、可扩展性强等特点[4]。
R R 语言是用于统计分析、绘图的开源语言以及操作环境,它与商业软件MATLAB 功能相似,语法类似于C,但是比C 语言具有更强的统计分析以及数据运算功能[5]。
Processing
语法简单、操作便捷。在数据可视化方面,Processing 可以绘制二维图形和三维图形,它包含的许多库和工具,使其能够支持播放声音、计算机视觉、三维几何造型等功能。
其中Python是常用的用于数据分析和可视化的语言。它是一种跨平台的通用计算机程序设计语言,在网络爬虫、科学计算、数据统计和挖掘、可视化、自然语言处理、Web 后端开发、系统运维、仿真系统等方面都有很多应用[6,11]。Python在数据处理和数据可视化方面有如:Pandas、Numpy、Matplotlib、Seaborn、Pyecharts等功能十分强大的库。在学术界和产业界受到广泛关注,如成文莹,李秀敏等基于Python对电影数据爬取和数据可视化分析[3];但在数据可视化方面只调用基本的函数做出来的图会较为简陋(如图1),要达到较好的视觉效果需要耗费大量的精力和使用复杂的代码,较难实现丰富的视觉效果。
图1 Python数据可视化
市场调研与统计分析
10
商业智能是一种新兴的数据可视化工具。商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值[11]。商业智能中的数据可视化是以商业报表、图形等易被人们所辨识的方式将数据间的复杂关系、潜在信息等通过可视化平台展现(如图2),从而改善决策人员的业务过程洞察力。其同样在在学术界和产业界引起广
泛关注,如冷超霞等使用finebi对世界人口变化趋势数据进行可视化分析[13],吴蓓等使用Tableau进行在线教育大数据的可视化探索[14]。但目前商业智能对数据的处理能力较为有限,当原始数据需要较多的预处理或数据结构较为复杂时,商业智能较难实现数据的清洗和需要数据的汇总和提取,难以像Pyth
on那样简单高
效的完成数据清洗和复杂的统计汇总。
图2 商业智能数据可视化
基于以上两点,本文将Python和商业智能结合使用进行数据可视化,不单一使用某一种语言或工具去进行可视化,而是将Python强大的数据处理效果和商业智能的强大数据可视化功能相结合,以弥补互相的缺点并发挥各自的长处,取长补短来达到更好的数据处理和可视化效果,以期到更易于上手、更有效率、
各方面效果更好的数据可视化方法。
图3 数据可视化流程模型
本文数据选用1896年雅典奥运会至2016年里约热内卢奥运会
120年的奥林匹克运动会的历史数据。奥林匹克运动会,是国际
奥林匹克委员会主办的世界规模最大的综合性运动会,每四年
一届,会期不超过16日,是世界上影响力最大的体育盛会[15]
。近
期和奥运会有关的新闻引人关注,如2020年东京奥运会因为疫情
推迟、2022北京举办冬奥会、中国的成都和重庆两大城市准备联
合申请请2032年夏季奥运会的举办权等,然而无论是2020年奥运
会还是2032年奥运会都充满着未知与变数。本文通过对百年奥
运会数据进行可视化处理与分析展示并提出可行性建议,以期
更好地了解奥运、分析奥运、展望未来。
二、数据准备及可视化方法分析
(一)数据来源
本文分析的数据来自Kaggle公开数据集,将1896年雅典奥
运会至2016年里约热内卢奥运会120年的奥林匹克运动会的历史
数据集作为研究数据。数据充分真实可靠、量大客观。通过大
数据可视化图表分析量的数据,我们可以客观地对百年奥运会中出现的现象,奥运
会发展的整体情况等进行深入分析,挖掘出数据背后所隐藏的
信息。
(二)数据处理由于数据中包括运动员的身高、体重等各类详细数据,其数据格式、类型与数据规范存在一定出入,易在数据录入环节产生类型导入错误、格式不规范、出现异常值等问题。因此需在数据分析前完成数据清洗,具体包含以下三种方式:第一是基于正确性验证数据,第二是运用排序、筛选、删除重复项等方式,实现数据格式的统一;第三是运用Python中的Pandas、Numpy等库函数中的mean、loc、sort_values、groupby、merge 等方法进行分组、统计汇总等操作进一步数据处理,为后续数据可视化、数据分析等提取所需数据。(三)数据存储与可视化输出Python处理过的数据可以存储为txt、xls及csv等格式,也可存储在数据库中(如MySQL、 MongoDB等)。为方便导入商业智能软件中,本文数据存储为csv格式。然后,将数据导入商业智能中,采用商业智能中的多种图表如折线图、柱状图、地图等图表进行数据的可视化输出。(四)商业智能软件分析商业智能(Business Intelligence,BI)是一套用于收集、组织、
市场调研与统计分析
11
分析,将原始粗糙的数据转化成有意义的、有用的信息,并提
供可操作性的、战略上和决策支持的理论、方法、流程和技术。FineBI就是国产BI中的一种。
FineBI软件简单易学,图表类型丰富多样,数据展现能力
强,具有良好的视觉效果与交互体验。FineBI支持文件直接进行
导入分析,如 CSV、 Excel等常规的文件数据格式,为数据的高效
可视化提供了可能[3]
。本次对奥运会的数据分析使用商业智能软
件--FineBI,使用FineBI通过各种形式的图表展现数据,能更加
直观地体现到历届奥运会的变化。
三、历年奥运会数据分析及可视化
本文中数据的数据可视化主要展现数据中体现的120年来奥
运会在举办和申请上出现过的现象和问题,如申办奥运会的积极
性下降等,并结合查询到的相关文献资料,分析申办奥运会的积
极性下降的原因,整理出一些建议,期望能对奥运会发展产生一
定的积极影响。
本章将从3个方面对奥运会举办国家及城市、奥运会申办城
市、和奥运会有关经济因素进行分析。在3.1节对奥运会举办国
家及城市、奥运会申办城市等进行可视化分析,3.2节对奥运会
申办城市进行可视化分析,3.3节从经济角度看待奥运会申办候
选城市下降问题,并进行分析与建议。
(一)历届奥运会举办国家分布
将历届奥运会举办国家分布通过地图图表展示,截至
2016年,夏季奥运会已举办28届,位于欧洲、美洲、大洋洲、
亚洲的城市获得过举办权,其中在欧洲举办的次数最多,共
有16次。冬季奥运会已举办 22 届,位于欧洲、美洲、亚洲的
城市获得过举办权。其中颜深浅的变化代表举办奥运会次
数的多少,颜越偏向深,该国家举办奥运会次数越多,颜
越浅,举办奥运会次数越少。直观地看出。举办过奥运会
次数最多的国家是美国(8次),其次是法国(5次)和意大利、日本、英国、加拿大等国家(3次)。这与当今世界各国GDP产
量总值排名相契合,GDP排名越靠前的国家,越有机会承办奥
运会。
(二)历届奥运会申办候选城市个数
绘制历届奥运会申办候选城市个数折线图,显然可知,进
入21世纪以来,奥运会在获得前所未有的辉煌的同时,也遇到了
前所未有的挑战。其中最核心的问题就是各国申办奥运会的积极
性急剧下降。
(三)从经济角度看待奥运会申办候选城市下降问题
1.奥运会成本及预算超支情况
绘制奥运会举办成本及超支情况折线图及柱状图,可以直
观地发现近年来夏季奥运会举办成本总体上呈增长趋势、自2008
年以来成本超支比例同样不断上升。夏季奥运会在2012年达到近
24年来的举办成本最大值:149.6亿美元,冬季奥运会举办成本
在2014年达到近24年来的最大值:218.9亿美元,同时成本支出更
是达到了惊人的289%。
2.近年来奥运会对就业及GDP的影响
将近八届奥运会主办国的举办前后的GDP增速和失业率情况
通过折线图展现出来。奥运会创造大量就业岗位,在奥运会举办
之前降低整个国家的失业率。除近两届奥运会外,其他国家在奥
运会前两年均出现失业率下降的情况。2008年及之前的奥运会均
能对举办国家年GDP增速产生积极作用,使举办国家年GDP增速
总体上升,但在2008年之后的两届夏季奥运会举办国家GDP增速
上升不明显,甚至出现下降。近两届奥运会对就业及GDP的积极
影响较以前不显著。
由此不难看出,各国对举办奥运会态度趋冷的最主要原因
归结为:
第一:奥运会举办成本日益增高,预算超支情况普遍存在
且近年来超支水平趋于上升。
第二:近年来奥运会对就业及GDP的积极影响较以前不显
著,对GDP增速的刺激作用和失业率的降低。
面对如此局面,国际奥委会应当适时减轻主办城市的负担,加大对主办城市的经济支持力度,积极寻对主办城市经济产生积极影响的办法,对城市产生可持续的正面影响。
四、结论本文将Python和商业智能结合使用进行数据可视化,将Python强大的数据处理效果和商业智能的强大数据可视化功能相结合,在数据处理和可视化方面效果显著,该方法达到了优于商业智能的数据处理效果和由于Python的数据可视化效果,为更有效的数据可视化提供了新的可能。文章主要通过数据支撑进行可视化分析,对发现的奥运会申办城市数下降现象进行分析,通过分析其产生的经济原因,以期国际奥委会及举办国能相应地调整政策,改善奥运会现状,实现奥运会对GDP增速、就业率等方面产
生显著的积极影响,使奥运会申办城市数上升。数据分析与挖掘是整理历史数据和展望未来的重要手段,奥运会可视化分析结果对于奥运会改革及后续发善具有积极指导意义。通过运用FineBI的可视化分析功能可以直观呈现出百年奥运会的现象及特征,为国际奥委会统筹规划、做出决策提供了重要的参考价值。参考文献:[1]Ren L. Research on interaction techniques in information visualization [D]. Beijing: The Chinese Academy of Sciences,2009 (in Chinese with English abstract).[2]Card SK, Mackinlay JD, Shneiderman B. Readings in Information Visualization: Using Vision To Think. San Francisco: MorganKaufmann Publishers, 1999. 1-712.[3]成文莹,李秀敏. 基于Python的电影数据爬取与数据可视化分析研究[J]. 电脑知识与技术, 2019(15):8-12.[4]Wes Mckinney.利用 Python 进行数据分析[M].北京:机械工业出版社,
2014.[5]张茜.聚类及推荐算法在体育竞赛压力源中的研究及应用[D].华中师范大学计算机学院硕士学位论文 2015[6]姚建盛,刘艳玲,李淑梅.基于Python的DTN仿真平台.新型工业化[J],2016,6(09):42-45[7]姚建盛,李淑梅.Python在科学计算中的应用[J].数字技术与应用,2016(11):76[8]赵雅欣,宁士勇.基于Python的超市O2O营销数据分析[J].哈尔滨商业大学学报(自然科学版),2019,35(04):431-435[9]祝永志,荆静.基于Python语言的中文分词技术的研究[J].通信技术,2019,52(07):1612-1619[10]李俊华 . 基于 Python 的网络爬虫研究[J].现代信息科技,2019,3(20):26-27,30[11]徐勤亚,蔡继鹏,王星.基于Python的影片数据分析[J].信息技术与信息化,2019(08):113-115[12]张
光渝,杨秋辉,詹聪,郭鑫宇,阙舒.开放式XML数据的质量分析方法[J].计算机应用研究期刊2013,30(7):2082-2086[13]冷超霞,周橙旻. 基于世界人口变化趋势数据的可视化分析[J]. 南京林业大学学报(人文社会科学版). 2019(4):44-52.[14]吴蓓. 基于Tableau实现在线教育大数据的可视化探索[J].电子技术与软件工程, 2020, No.171(01):167-168.[15]李佳腾.奥运会、亚运会、全运会100米200米成绩分析与发展对策研究[D].哈尔滨体育学院硕士论文2019作者简介:王从瑜(1999-),男,江苏人,汉族,金陵科技学院本科在读。通信作者:赵炜(1978-),男,河南上蔡人,汉族,讲师,博士研究生,主要从事机器学习,数据可视化研究。基金项目:江苏省高等学校自然科学研究重大项目(18KJA520003),江苏省现代教育技术研究课题(2018-R-63369)
,金陵科技学院科研启动基金(jit-b-201505)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论