⽂献挖掘:SATI⽂献题录信息统计分析⼯具初试
最近帮王总做了⼀个⽂献关键词信息挖掘的简单⼯作,利⽤关键词的在不同⽂章中的共现信息,对关键词进⾏相似度的⽐较。主要使⽤到了SATI这个⼯具,当然为了把最后所有的图弄出来,还⽤到了Ucinet6,NetDraw还有spss。主要参考
刘启元, 叶鹰. ⽂献题录信息挖掘技术⽅法及其软件SATI的实现——以中外图书情报学为例[J]. 信息资源管理学报,
2012(1):50-58.
1.使⽤SATI抽取关键词共现信息
这⼀次做的是国内校园欺凌⽂献关键词信息的挖掘,拿到⼿的数据已经是处理好的XML数据(如何从各⼤平台获得XML形式的数据不在本⽂讨论范围之内),⽤SATI直接打开,选择你需要的题录信息,笔者这⾥需要的是关键词频率,然后依次构建了三类共现矩阵:相似度,相异度和边数。关键词的个数设定为30。点击矩阵按钮等待⽣成然后保存Excel⽂件即可。
2.使⽤Ucinet进⾏层次聚类分析
层次聚类分析的原理很简单,其实⽤R语⾔或者Python写也⽐较⽅便,不过为了使⽤NetDraw画图,需要Uncinet⽣成的network⽂件,这⾥就⽤Ucinet来聚类了。
Ucinet可以导⼊Excel⽂件作为矩阵,这⾥使⽤相似度矩阵
点击确定后会在输出⽂件夹输出Ucinet数据⽂件,分别是##h⽂件和##d⽂件。 ⽤Ucinet打开对应的##h⽂件,然后就可以再⼯具菜单中选择聚类分析了。
3.使⽤NetDraw绘制共现知识⽹络图谱直接使⽤NetDraw打开##h⽂件即可。
之后可以进⾏各种编辑。
4.使⽤Spss进⾏多维尺度分析
讲道理MDS之前在统计机器学习的课上接触过,但没有⾃主实现,这次⽤Spss相当于看看效果。直接⽤Spss打开Excel⽂件(相异度矩阵),然后选择多维尺度分析。
将所有关键词作为构建新空间的变量(这个没有全选真的伤),选好参数后就可以输出了。python处理xml文件
5.计算关键词类的向⼼度和密度值
根据层次聚类图和多维尺度分析图,可以将关键词⼤致分为有意义的类别。采⽤总和均值法计算类的
向⼼度和密度值, 即聚类向⼼度为类内所有结点与其他类团内所有结点的边数总和的均值,聚类密度为类内所有结点之间边数总和的均值。类别分好过后,⽤⼀个Python程序读取存储边数的共现矩阵然后进⾏计算就可以轻松搞定了。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论