科学技术创新2020.28
基于Python 的文本可视化方法实现与应用
张楚
(武汉市第六中学国际部高二(4)班,
湖北武汉430000)1概述
Python 编程语言相对于其他语言来说,
简单易学,由于贴近人类语言所以阅读起来难度不大。这种具有伪代码性质的代码编程语言可以让使用者降低对于语言本身研究的注意力,专注于解决问题。同时Python 还拥有丰富的第三方库,包含数据可视化、图片处理、游戏制作、图形绘制、
中文分词等等,可以让使用者在处理问题时更加方便简易。Python 精准又高效的语言特征,用于文本挖掘,提取高频词汇具有很大的用处。所以,我们利用jieba 库来对文本文件进行分词处理,用wordcloud 模块实现词云效果,用imageio 库将词云显示在图片中,提高可读性。
2关键技术与系统实现
文本可视化方法的实现,主要借用Python 中的第三方库。先对中文文本进行分词处理,将处理好的高频词汇以词云形式显示,同时导入背景人物图,再将最后的结果呈现到png 格式的图片文件中。
2.1第三方库概述
在实现文本可视化时,
使用的工具为Python3.7版本,可在中对照电脑配置下载。但下载时需要添加到环境变量中,安装组件包括Python 文档文件、pip 包工具、开发环境、启动器等。同时需要使用到以下几个第三方库:jieba 库、wordcloud 库以及imageio 库,可以在命令行中直接使用"pip install jieba"来下载jieba 库,其余第三方库同理。下面来对这几个库的功能进行简述:
首先是jieba 库,它是优秀的中文分词第三方库,可以通过对中文进行分词处理来获得其中的单个词语,
所以我们可以利用它,来从文本文件大段的内容中提取出单个的高频词汇,提取文本内容中出现概率比较大的词语,完成分词。jieba 库分词有三个模式:精准模式、全模式和搜索引擎模式。
其次是wordcloud 库,它可以以词云形式展示内容,
词云以单个词语为基本单位,对文本的展示更加清晰明了,并且它可以根据文本中词语出现的频率等参数来绘制词云,所以在使用时,可以对主要任务以及中心内容有一个更加直观的了解。
最后使用imageio 库对图片进行处理,这个第三方库提供了一个简单的接口来读取和写入各种图像数据。通过调用这个库,我们可以将文本挖掘的结果在图片上展示出来,以增加阅读过程的趣味性。
2.2系统架构与设计思路
我们选取四大名著之一的《三国演义》
来作为研究的文本对象,将三国演义小说中关键人物以及事件以词云方式展示出来,并把生成的结果放置到人物背景图片中,帮助读者更直观地了解本书内容。要提取文件中的内容,
首先就要使用"with open()as f"语句打开文件,把txt 文件存放到f 这个变量中,open()函数里存放要打开的文本文件路径、文件名以及文件扩展名,打开方式为"r"可读模式。文件打开之后,使用data =f.read()语句读取txt 文件并存放到变量data 中,接着使用jieba 库中的Icut()精准模式对存放到data 变量中txt 文件进行分词,精准模式可以精准
地将句子分割,更适用于文本文件,分词返回结果为列表数据类型。我们再设置一个空列表,用for 循环把上一步分词列表中存在的单个词语过滤掉,剩下的词语存放到新列表中。最后,我们把列表转换成字符串,使用join()函数以空格拼接字符串。具体代码展示如图1所示。
图1分词过程代码展示
分词部分功能完成之后,还要将分词结果展示在生成的词云图片中。首先要导入背景图片到词云,我们选取三国人物之一———曹操,作为背景图片,使用imageio 库中的工具imread(),把图片导入进去。接着还要使用wordcloud 库,把词云显示在图
片中,词云设置参数包含:背景颜、字体、图片宽高、词云形状等,词云会依据词语出现的频率来显示字体大小,出现频率越高,则显示的字体越大,最后再设置生成的图片名称及格式。具体代码展示如图2所示。
摘
要:随着互联网时代的发展,大数据的应用范围越来越广,同时用户可获取的信息量也越来越大,
而大部分数据类型都是以txt 文本格式出现的。那么如何对大量的文本数据的信息进行管理和组织,
并且准确地提取出其中关键和精华部分就成了一个辄待解决的问题。利用Python 编程语言就可以对文本进行分词处理,重新组织信息内容,获取高频词汇,过滤边缘内容,同时将结果做可视化处理以词云形式展示,减少用户获取文本主旨的时间。
关键词:Python ;中文分词;可视化;词云中图分类号:TP391.1文献标识码:A
文章编号:2096-4390(2020)
28-0144-02
144--
>python中文文档
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论