学术论坛/Academic Forum
2019世界幸福报告的可视化分析
张威,肖麟,王斓凯
(河南大学,河南开封475004)
摘要:幸福程度与各种因素有关。2019世界幸福报告提供了世界156个国家或地区的幸福程度排名和相关指数,本文基于该数据集,进行可视化分析,探究影响一个国家或地区人民幸福和程度的主要因素,总结得出富足的物质生活、健全的社会保障制度、发达的医疗系统是一个国家或地区人民提高幸福感的关键。
关键词:数据可视化;核密度估计;相关性分析;主成分分析
一个国家或地区人民的幸福程度与很多因素有关。比如经济因素,一个国家越富强,人民便越幸福,而一些极度落后的发展中国家的人民,其生存都极其艰苦,也就没有所谓幸福感了。本文基于2019幸福报告,进行可视化分析,探究影响一个国家或地区人民幸福和程度的主要因素。
1数据集介绍
2019世界幸福报告的数据源来自于可持续发展解决方案网络组织,幸福指数和排名使用盖洛普世界民意调查的数据。分数基于对民意调查的答案。随着政府,组织和民间社会越来越多地使用幸福指数来指导其决策,该报告的数据集不断获得全球认可。报告回顾了当今世界的幸福状况,并展示了新的如何解释幸福的个人和国家差异。
该数据集每一条记录的数据项包括:排名(Overall rank),国家或地区(Country or Region)幸福指数(Score)人均GDP(GDP per Capita),社会支持(Social support),健康寿命期望(Healthy life expectancy),人生选择自由(Freedom to make life choices),慷慨(Generosity),腐败感(Perception of corruption)。
2数据的读取及预处理
读取数据集后需要对原始数据进行数据清洗,处理数据集中的空值和异常值,然后视情况对数据进行缩放。
图1数据读取与预处理流程图
3探究幸福指数分布情况
首先研究幸福指数在数值上的分布情况,在此采用核密度估计。核密度估计是一种非参数检验方法,可
以根据离散的样本数据,估计出样本数据的连续概率分布。
幸福指数的核密度估计图中显示,幸福指数大都集中在[4,6.5]这个区间,且整体类似于正态分布,即大多数的国家和地区人民的幸福程度处于中游,只有少数国家的人民非常幸福或非常不幸福。
图2幸福指数核密度估计图
然后通过绘制地理热力图,观察并分析幸福指数在地理上的分布情况。
7.5
Score
图3幸福指数地理热力图
根据幸福指数地理热力图,分析得出,美洲、大洋洲和西欧国家人民的幸福程度都较高,南亚、东南亚、非洲国家人民的幸福指数较低,尤其是中非国家,是数据集记录的国家和地区中最低的。
4对人民幸福指数的影响因素的探究
根据幸福指数地理热力图,结合实际,大致可以推断幸福指数和经济呈正相关,即与数据项中的“人均G
DP”呈正相关。为了验证这一猜想,并研究其他指标的相关性,计算
数据可视化什么意思
120
Academic Forum/学术论坛
各个指标之间的相关系数,得到相关系数矩阵并绘制成相关系数热力图。由于排名和幸福指数一定是负相关,且其他因素对排名的影响可以通过对幸福指数的影响转化,所以具体操作时并没有将排名计算在内。
Score
GDP per capita
Social support
Healthy Irfa expectancy
Freedom to make Ma cixxcas
Generoarty
Perceptions of corruption
图4相关系数热力图
根据相关系数热力图,可以分析得出以下结论:人均GDP、社会支持、健康寿命期望三者与幸福指数有很高的正相关性,且这三个指标两两之间也具有很高的正相关性;而人生选择自由、慷慨、腐败感与幸福指数的相关性较低。
为了进一步研究各个指标对幸福指数的影响,对数据集需要进行线性拟合,在此之前,根据对相关系数热力图的分析,指标维度可以进行降维,本文使用主成分分析的方法进行降维。
主成分分析法,是一种常用的降维方法,能够在降低维度的同时,保持数据集中的对方差贡献最大的特征。使用Python相关第三库,将数据参数输入即可计算出提取过后的主成分。
通过对方差贡献度的计算得出需要将维度降至1维,即保留1个主成分。降维后,利用Python的相关第三库函数,将得到的主成分作为自变量,幸福指数作为因变量,绘制散点图并尝试进行线性拟合。根据线性拟合与散点图,可以看到幸福指数与最终得到的主成分呈正相关。
5结语
本文通过多种可视化方法,从幸福指数的分布入手,到各个指标的相关性研究,逐步探究影响幸福指数的主要指标。
幸福指数核密度估计图分析得出,幸福指数的分布大致呈正态分布,幸福指数较高和较低的处于少数,大部分处于中间部分。
幸福指数地理热力图分析得出,落后的发展中国家的幸福程度远低于发达国家,中非国家最低,西方资本主义国家较高。
相关系数热力图分析得出,人均GDP、社会支持、健康寿命期望都与幸福指数有较高的相关性,且这三个指标两两之间也都与较高的相关性。
线性拟合与散点图表明,降维之后得到的唯一主成分,和幸福指数呈正相关。
综上所述,经过对2019幸福报告的处理与分析,人均GDP、社会支持、健康寿命期望这三个是影响幸福指数的主要因素,但是由于这三个因素之间还存在较高的相关性,真正的定量分析采用降维后的主成分进行线性拟合。幸福指数与主成分拟合结果表明,当一个国家或地区能够提供富足的物质生活、健全的社会保障制度、发达的医疗系统,那么这个地方的人民将拥有较强的幸福感。这个结论对提高我国人民幸福感具有一定的指导意义。
作者简介:张威(1998-),男,籍贯:江苏苏州,学历:本科,研究方向:人工智能和大数据处理。
参考文献:
[1]曹科岩.居民主观幸福感研究述评与展望U).深圳职业技术学院学报,2019,18(06):53-59
[2]冯学军,徐波.学生成绩管理核密度估计的Matlab实现U).统计与管理,2015(⑵:49-50.
[3]黄丹颖.主成分分析在航空公司竞争力评价的应用[J].中外企业家,2020(03):12.
[4]朱涤尘,夏换.基于数据可视化和线性回归的豆瓣图书榜单数据分析[J].信息技术与信息化,2019(⑵:218-220.
121
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论