基于R语言的文本数据可视化分析教学
作者:杨杰
来源:《商情》2020年第29期
        【摘要】数据的可视化作为一种最新的统计数据分析方法已经广泛运用在各个领域中,大数据时代背景下作为非统计专业本科学生,掌握一门统计分析软件是必要的。而利用统计软件进行可视化分析又是一项极为重要的必备技能。文章以R语言为基础,对近2020年国家政府工作报告进行可视化分析,以期激发学生对于统计数据分析的兴趣。
        【关键词】R语言;可视化;政府工作报告;统计教学
        1软件介绍
        R软件本质上是一种语言,即R语言,它是在S语言的一个分支,早在上世纪80年代左右被人们所开发并使用,如今是统计领域使用极为广泛的一种数据分析工具。它在数据探索、统计分析和统计作图上面具有独特的优势,属于一种解释型语言。R整体上是一套集数据处理、运算、制图为一体的软件系统。其对于数组的运算功能尤其强大,所以R又可以视为一种数学计算的环境。R不仅有完整连贯的分析工具包和丰富即时的制图包,它的编程语言还十分简便且强大,用户可以对数据进行输入输出的双向操纵、分支、循环以及自定义功能。R语言的主题思想就是给用户提供集成化的统计工具,海量的数学计算、统计计算函数,用户可以灵活机动进行数据分析,更甚者可以根据需求创造新的统计计算方法并与所有使用者共享。fontweight取值
        R能够被广泛使用还得益于其使用上的免费和8个基础模块之外的CRAN板块,CRAN已经收录了超4000个各类包,可用于经济计量、财经分析、人文科学研究以及人工智能等诸多领域。
        2文本数据可视化分析工具——词云
        “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。“词云”就是通过形成“关键词云层”或“关键词渲染”,对文本文件中出现频率较高的“关键词”的视觉上的突出。使用的R制作词云主要包含:文本数据获取、数据分词处理、制图三个部分。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。