基于万有引力改进的TextRank关键词提取算法--688IT编程网

第３７卷第７期　计算机应用与软件

Ｖｏｌ３７Ｎｏ．７

２０２０年７月

ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅ

Ｊｕｌ．２０２０

基于万有引力改进的ＴｅｘｔＲａｎｋ关键词提取算法

孙福权１，２　张静静２　刘冰玉１，２

　姜玉山１，２　多允慧２

１

（东北大学秦皇岛分校　河北秦皇岛０６６００４）

２

（东北大学　辽宁沈阳１１０８１９）

收稿日期：２０１９－０６－１５。国家重点研发计划项目（２０１８ＹＦＢ１４０２８００）；教育部科技发展中心科研创新项目（２０１８Ａ０３０３１）；全国教育信息技术研究规划课题重点项目（１６２２２８７４）；医学影像智能计算教育部重点实验室资助项目。孙福权，教授，主研领域：电子商务，大数据分析。张静静，硕士生。刘冰玉，讲师。姜玉山，讲师。多允慧，硕士生。

摘　要为了提高文本关键词提取的准确性，提出基于万有引力改进的ＴｅｘｔＲａｎｋ关键词提取算法ＧｔｅｘｔＲａｎｋ。利用万有引力模型对词语在文档中的主题影响力、词语间距离和词语间共现频率进行有效融合，构建新的ＴｅｘｔＲａｎｋ转移概率实现关键词的提取。实验结果表明，与传统关键词提取方法相比，该算法具有显著的优越性，能够完成对关键词的相对正确的提取；同时考虑了文本中词语的语义关系和主题影响度，可以提高关键词的提取精度。

关键词关键词　主题影响度　词向量　ＴｅｘｔＲａｎｋ　万有引力

中图分类号　ＴＰ３文献标志码　ＡＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０２０．０７．０３６

ＡＮＩＭＰＲＯＶＥＤＴＥＸＴＲＡＮＫＫＥＹＷＯＲＤＥＸＴＲＡＣＴＩＯＮＡＬＧＯＲＩＴＨＭＢＡＳＥＤＯＮＧＲＡＶＩＴＹ

ＳｕｎＦｕｑｕａｎ１，２　ＺｈａｎｇＪｉｎｇｊｉｎｇ２　ＬｉｕＢｉｎｇｙｕ１，２

　ＪｉａｎｇＹｕｓｈａｎ１，２　ＤｕｏＹｕｎｈｕｉ

２１

（ＮｏｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙａｔＱｉｎｈｕａｎｇｄａｏ，Ｑｉｎｈｕａｎｇｄａｏ０６６００４，Ｈｅｂｅｉ，Ｃｈｉｎａ）

２

（ＮｏｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｙａｎｇ１１０８１９，Ｌｉａｏｎｉｎｇ，Ｃｈｉｎａ）

ＡｂｓｔｒａｃｔＩｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｔｅｘｔｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎ，ｗｅｐｒｏｐｏｓｅａｎｉｍｐｒｏｖｅｄＴｅｘｔＲａｎｋｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍＧｔｅｘｔＲａｎｋｂａｓｅｄｏｎｕｎｉｖｅｒｓａｌｇｒａｖｉｔａｔｉｏｎ．Ｔｈｅｕｎｉｖｅｒｓａｌｇｒａｖｉｔｙｍｏｄｅｌｗａｓｕｓｅｄｔｏｅｆｆｅｃｔｉｖｅｌｙｆｕｓｅｔｈｅｔｈｅｍｅｉｎｆｌｕｅｎｃｅ，ｔｈｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｗｏｒｄｓａｎｄｔｈｅｃｏｏｃｃｕｒｒｅｎｃｅｆｒｅｑｕｅｎｃｙｏｆｗｏ

ｒｄｓｉｎｄｏｃｕｍｅｎｔｓ，ａｎｄａｎｅｗＴｅｘｔＲａｎｋｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙｗａｓｃｏｎｓｔｒｕｃｔｅｄｔｏｅｘｔｒａｃｔｋｅｙｗｏｒｄｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄ，ｏｕｒａｌｇｏｒｉｔｈｍｈａｓｓｉｇｎｉｆｉｃａｎｔａｄｖａｎｔａｇｅｓａｎｄｃａｎｃｏｍｐｌｅｔｅｔｈｅｒｅｌａｔｉｖｅｌｙｃｏｒｒｅｃｔｅｘｔｒａｃｔｉｏｎｏｆｋｅｙｗｏｒｄｓ．Ｉｔｓｈｏｗｓｔｈａｔｔｈｅａｃｃｕｒａｃｙｏｆｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｃａｎｂｅｉｍｐｒｏｖｅｄｂｙｃｏｎｓｉｄｅｒｉｎｇｂｏｔｈｔｈｅｓｅｍａｎｔｉｃｒｅｌａｔｉｏｎｓｈｉｐｏｆｗｏｒｄｓａｎｄｔｈｅｄｅｇｒｅｅｏｆｔｏｐｉｃｉｎｆｌｕｅｎｃｅ．

ＫｅｙｗｏｒｄｓＫｅｙｗｏｒｄ　Ｔｏｐｉｃｉｎｆｌｕｅｎｃｅ　Ｗｏｒｄｖｅｃｔｏｒ　ＴｅｘｔＲａｎｋ　Ｕｎｉｖｅｒｓａｌｇｒａｖｉｔａｔｉｏｎ

０　引　言

文本文档可以由一个或多个简单而有意义的关键词来表示，通过关键词可以了解作者的写作意图。关键词提取技术在文本分类、文本摘要提取、文本聚

类、情感分析、信息检索等领域发挥重要作用［

１］

，且关键词提取在新闻以及其他领域均得到了较为广泛的

应用。为此众多学者致力于关键词提取的研究［２－４］

。Ｓｈｒａｗａｎｋａｒ等［４］结合自然语言处理的解析技术，采用

关键字和关键短语组合的方法构造出合适标题，从而

有助于读者减少阅读时间以获取完整想法。

现有的关键词提取算法主要包括基于无监督的学

习模式和有监督的学习模式［５］

。但是基于有监督的学

习需要大量的、高质量的标注语料，耗费大量的人力物力。因此，目前无监督提取关键词的方法仍为主流方法，无监督方法是将提取任务转化为一个排序问题，从而克服训练语料库和领域偏差的关键挑战。其中基于词图模型、主题模型和ＴＦＩＤＦ词频统计的算法为关键词提取的主要算法。其中基于Ｔ

ＦＩＤＦ统计关键词简

第７期　孙福权，等：基于万有引力改进的ＴｅｘｔＲａｎｋ关键词提取算法２１７

单易行［６］，但是这种方法忽略了低频词、词语内部之间的语义关系和文本中主题关系的影响。ＴｅｘｔＲａｎｋ算法［７］利用词语构成图模型，并根据词语之间的共现频率迭代计算得到关键词。该方法利用文本自身信息就可以获取候选关键词，具有简洁性，故本文采用该算法作为研究的基础算法。

原始的ＴｅｘｔＲａｎｋ算法借助于转移概率对词语在文档中的权重进行测算，导致了将高频词汇作为关键词行为的发生。因此Ｂｉｓｗａｓ等［８］利用影响节点权重的不同参数，如词语的频率、位置、相邻关键词字的强度等，提出了一种新的基于无监督图的关键词提取方法，结果表明根据词语频率、位置等信息可以提升关键词的提取效果。Ｆｉｇｕｅｒｏａ等［９］通过应用类似于反向传播概念的错误反馈机制，增强了基于图的关键词提取方法。然而，单纯地考虑文档外部结构无法完成对关键词的精准提取，还需要考虑文档内部的语义关系对文档的影响。Ｌｉｕ等［１０］将传统的随机游走分解为针对不同主题的多组随机游走，并构建特定词图模型，以衡量不同主题下词语的重要性结合文档的主题分布，提取排名靠前的词语作为关键词。顾益军等［１１］利用主题模型计算词语在文档中的主题影响度，将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递，构建词图模型。Ｗｅｎ等［１２］对新闻稿件的关键词提取方法进行了研究，利用Ｗｏｒｄ２Ｖｅｃ计算词语之间的相似度作为节点

权重的转移概率，简单而有效地改善ＴｅｘｔＲａｎｋ算法的性能。Ｑｉｕ等［１３］应用地质本身特性对基于深度学习的词分布模型Ｗｏｒｄ２ｖｅｃ进行了更新，将领域背景信息进行了链接，识别了不常见但具有代表性的关键短语。以上文献在对关键词进行提取时仅考虑了词语的语义关系或者ＬＤＡ主题影响度单一方面。为了更准确地对关键词进行提取，充分利用文档语义信息及结构信息，本文利用牛顿提出的万有引力公式对ＴｅｘｔＲａｎｋ算法进行改进。通过计算词语之间的吸引力作为节点权重的转移概率，迭代计算得到文档中词语的排序，实现关键词的提取。

１　相关理论

１．１　Ｗｏｒｄ２ｖｅｃ模型

Ｗｏｒｄ２ｖｅｃ模型［１４］是Ｍｉｋｏｌｏｖ等于２０１３年提出的，该模型可以通过浅层神经网络对语料进行训练，不需要人为干涉就可以把文档中的词语映射到向量空间，从而将每个词表征为Ｋ维的实数向量。这种方式得到的词向量具有语义关系，经典的式子就是ｋｉｎｇ－ｍａｎ＋ｗｏｍａｎ＝ｑｕｅｅｎ。Ｗｏｒｄ２ｖｅｃ中的Ｓｋｉｐｇｒａｍ模型没有考虑到中文的语法，忽略了词的顺序。本文通过建立ＣＢＯＷ（ｃｏｎｔｉｎｕｏｕｓｂａｇｏｆｗｏｒｄｓ）模型，实现对词向量的获取。

ＣＢＯＷ模型根据词语所在文档的前后文内容，对当前词语的出现概率进行预测，当上下文出现时，对

应的词ｗ出现的概率应越大越好。在ＣＢＯＷ模型中，词向量属于附加物，词语的向量值处于循环往复的更新迭代过程中。ＣＢＯＷ模型包括输入层、投影层和输出层三个部分，如图１

所示。

图１　ＣＢＯＷ模型

输入层为当前训练词语周围的词语对应的词向量，对应的词向量是通过对训练文档中所有词语去重后得到词语表，利用词语表获得的词语对应的ｏｎｅｈｏｔ编码。投影层对输入层中的词向量进行简单的求和操作。输出层对获取到的词向量，利用Ｓｏｆｔｍａｘ函数将输出层的神经元的值转化为概率，得到词语ｗ。

１．２　计算词语的主题影响度

Ｂｌｅｉ等［１５］提出了ＬＤＡ主题模型，该模型属于无监督的贝叶斯模型，它可以将文档集中的每篇文档按照概率分布的形式给出。在ＬＤＡ主题模型中，不同的文档具有Ｋ个隐含主题，隐含主题又由多个词语的多项式构成。在文档生成的过程中，能以一定概率获取不同的主题，从所获取的主题中，能够以一定概率提取到某个特征词［１６］。隐含主题模型的概率图如图２

所示。

图２　隐含主题模型ＬＤＡ的概率图表示

图２中：（ｚ）表示文档主题下词语概率分布；θ（ｄ）表示文档主题的分布；α表示θ（ｄ）的超参；β表示（ｚ）的超参。假设一篇文档ｄ由Ｋ个隐含主题的多项式表

２１８

计算机应用与软件

２０２０年

示，每个主题又由词ｗ的多项式分布表示，则可以通

过θ（ｄ）和（ｚ）来计算每篇文档中词语ｗ的主题影响力［

１１］

，且ｗ出现在主题下的概率越大说明其在该文档中更重要。文档ｄ中词ｗ的主题影响力为：

Ｍ（ｗｄ）＝∑Ｋ

ｉ＝１

（θｄｚ＝ｉ× ｚ＝ｉ

ｗ）

（１）

式中：θｄ

ｚ＝ｉ

表示文档ｄ中主题ｚ的概率；ｚ＝ｉ

ｗ

表示主题为

ｉ的文档中词ｗ的出现概率；Ｋ表示隐含主题的数量。通过Ｇｉｂｂｓ采样，能够获取词语主题分布概率和主题文档的分布概率，其公式如下：

θｄ

ｚ＝

ｎｕｍ（ｄ，ｚ）＋α

∑Ｋ

ｚ＝１

ｎｕｍ（ｄ，ｚ）＋α（２）

θｚｗ＝

ｎｕｍ（ｚ，ｗ）＋β

∑Ｔ

ｗ＝１

ｎｕｍ（ｚ，ｗ）＋β（３）

式中：ｎｕｍ（ｄ，ｚ）表示文档ｄ分配给主题ｚ的频数；ｎｕｍ（ｚ，ｗ）表示主题ｚ分配给词的频数。　

结合式（１）－式（３）可以得到词ｗ在文档ｄ下的主题影响力。

１．３　构建词的图模型

设图Ｇ＝（Ｖ，Ｅ），Ｖ是顶点集合，Ｅ是边的集合。将文档词集合中的每个词看作图中的顶点Ｖ＝｛ｗ１，ｗ２，…，ｗｎ｝。图模型中的边是由文档中词语之间的共现关系得到。首先将新闻文档利用句号、问号、叹号等符号分句，然后对每句以特定窗口的大小滑动，计算词语与词语之间的共现频率。其公式如下：

Ｇｃ

（ｉ，ｊ）＝ｆｒｅｑ（ｉ，ｊ）ｆｒｅｑ（ｉ）＋ｆｒｅｑ（ｊ）－ｆｒｅｑ（ｉ，ｊ

）（４）

式中：ｆｒｅｑ（ｉ，ｊ）是词语ｉ、ｊ在每句以特定窗口滑动时共现的次数；ｆｒｅｑ（ｉ）、ｆｒｅｑ（ｊ）分别是词语ｉ、ｊ在每句以特定窗口滑动时出现的次数。

２　基于万有引力的关键词提取算法

牛顿提出，任何物体之间都有相互吸引力，这个力的大小与各物体的质量成正比例，与它们之间的距离的

平方成反比［１７］

。本文利用万有引力模型对ＴｅｘｔＲａｎｋ

算法进行改进，融合文档中词语的内部结构信息和词语之间的语义信息提出了ＧＴｅｘｔＲａｎｋ算法。该算法的核心思想是具有较强吸引力的词语可以对文本大致内容进行概括。

本文将文档中的词语象征性地表示为具有质量的物质，词语与词语之间具有相互吸引力，吸引力的大小用Ｆ表示。Ｆ与词语质量以及万有引力常数成正比，与词语之间的距离成反比，因此合理地表示词语的质

量、万有引力常数和恰当的距离对准确刻画词语之间的吸引力具有重要作用。

在一篇文档中的词语的主题影响度越大则该词语在文档中相对越重要，文档中词语之间的关联度可以通过词向量之间的距离和词语的共现频率体现。词向量之间的距离越大，词语之间关联度越小；词语之间

的共现频率越大，词语之间的关联度越大。因此，本文将词语在文档中的主题影响力作为词的质量，词向量的距离作为词语之间的距离，共现频率作为万有引力模型中的万有引力常数，则词语之间的引力公式为：

Ｆ（ｉ，ｊ）＝Ｇｃ（ｉ，ｊ）Ｍ（ｗｉｄ）×Ｍ（ｗｊｄ

）ｄ２

ｉ，ｊ

（５）

式中：Ｇｃ（ｉ，ｊ）表示词语之间的共现频率；Ｍ（ｗｉｄ

）和Ｍ（ｗｊｄ）分别表示词语在文档下主题影响力；ｄｉ，ｊ表示词语ｉ、ｊ之间的词语之间的距离。

利用式（５）计算得出的词语之间的吸引力Ｆ作为词图模型中的转移概率，通过原始的ＴｅｘｔＲａｎｋ算法迭代计算各图模型节点的权重。对应节点上的词语权重越大，词语越重要，从而得到有序的关键词序列。根据排序好的关键词序列得到指定数量的关键词。Ｗｓ（ｗｉ

）＝（１－ｄ）＋ｄ×∑ｗｊ

∈Ｉｎ（ｗｉ

）

Ｆ（ｗｉ，ｗｊ

）∑

ｗｋ∈Ｉｎ（ｗｊ

）Ｆ（ｗｊ，ｗｋ

）（６）

式中：Ｗｓ（ｗｉ）为词语ｗｉ的权重得分；Ｉｎ（ｗｉ）表示词语ｗｉ的共现词语集合；Ｉｎ（ｗｊ）表示词语ｗｊ的共现词语集合；ｄ为阻尼系数，０≤ｄ≤１

，通常取值为０．８５。综上，该算法关键词的提取分为３步：（１）对测试文档预处理（分词、去停用词等）；（２）基于万有引力模型对测试文档

建模，计算两词之间的引力大小；（３）通过式（６）迭代计算得到指定数量的关键词。提取步骤如图３所示。

图３　关键词提取步骤

第７期　

孙福权，等：基于万有引力改进的ＴｅｘｔＲａｎｋ关键词提取算法

２１９

　３　实　验

３．１　实验数据及评价指标

本文语料数据来源于搜狗实验室和复旦文本分类

语料，囊括了体育、娱乐、军事和医疗等新闻数据，共１．５４ＧＢ。将以上语料作为Ｗｏｒｄ２ｖｅｃ的训练集，选取５０篇医疗新闻作为关键词提取的测试集。由于目前没有关键词的相关测试集，实验前，由多个语言学专业人员根据每篇文章内容的大小提取７～１３个关键词。然后对每个人提取的关键词取交集得到文章的关键词并作为最终测试集对应关键词提取结果。实验在一台

配置为Ｉ

ｎｔｅｌｉ５２．２７ＧＨｚ和８ＧＢ内存的台式机进行，用Ｐｙｔｈｏｎ自带的ｇｅｎｓｉｍ中的Ｗｏｒｄ２ｖｅｃ工具训练词向量，运行时间为１４小时。实验的评价结果采用自然语言常用的评价指标：精确度（Ｐ）、召回率（Ｒ）和Ｆ。三种指标的计算公式如下：

Ｐ＝ｎｐｎｅ（７）

Ｒ＝ｎｐｎｄ（８）

Ｆ＝２×Ｐ×ＲＰ＋Ｒ

（９）

式中：ｎｐ表示抽取出正确关键词的个数；ｎｅ表示抽取出关键词的个数；ｎｄ

表示文档中包含关键词的个数。３．２　实验结果与分析

关键词提取准确度产生影响的参数主要为主题模

型中拟主题个数以及关键词的个数。本文首先通过改变拟主题的个数，分析不同拟主题个数对关键词提取准确度的影响。同时，针对不同的关键词提取算法，通过改变关键词的个数，实现对关键词提取算法优劣性的对比，并总结拟主题的个数和关键词提取数量对ＧＴｅｘｔＲａｎｋ算法产生的影响。

首先改变拟主题个数对算法性能进行分析。实验中ｄ取固定值０．８５，其α＝５０／Ｋ（Ｋ为主题个数），β＝０．０１，迭代次数５０００次，提取关键词的个数为１０。当ＴｅｘｔＲａｎｋ算法中的差异值等于０．００５时迭代停止。分别选取拟主题个数为５、１０、１５、２０和２５，对应的Ｐ、Ｒ和Ｆ的曲线如图４

所示。

图４　不同个数拟主题Ｐ、Ｒ、Ｆ变化曲线图可以看出，当主题个数较少时，效果较差，但是随

着拟主题个数的增加，其关键词提取的准确度增加，当拟主题个数为２０时结果最佳。实验结果表明，选取较为准确的主题个数是提高提取关键词的准确度的关键。由于实验数据集的主题性较强，本实验选取的都是医疗相关新闻，所以当拟主题个数较少时，也可以得到较好的结果。

实验中对比了４种不同的算法，

分别是经典的ＴＦＩＤＦ算法、

原始的ＴｅｘｔＲａｎｋ算法、基于词向量改进的ＴｅｘｔＲａｎｋ算法以及本文算法（ＧＴｅｘｔＲａｎｋ）。在不同提取关键词数量下对这４种方法进行比较，每种方法分别抽取权重最大的前５个词、８个词和１０个词作对比。ＧＴｅｘｔＲａｎｋ算法中的主题数目为２０，其他参数设置与不同个数据拟主题实验参数相同。对比结果如图５－图８

所示。

图５　关键词个数为５，不同算法的Ｐ、Ｒ、

Ｆ

图６　关键词个数８，不同算法的Ｐ、Ｒ、

Ｆ

图７　关键词个数１０，不同算法的Ｐ、Ｒ、

Ｆ

图８　Ｆ随关键词个数变化趋势图

２２０

计算机应用与软件２０２０年

可以看出，随着关键词个数的增加，所有方法的

字符串函数title作用Ｐ、Ｒ和Ｆ都呈现上升趋势。相对其他方法，本文算法

的提升效果较大。当关键词提取数量相同时，由于基

于Ｗｏｒｄ２ｖｅｃ改进的ＴｅｘｔＲａｎｋ算法的实验效果取决于

训练的词向量的好坏，所以该算法在这４种方法中表

现最差。而本文算法的Ｐ、Ｒ和Ｆ均高于其他方法，结

果最优。为了较好地观察本文算法的提取效果，将不

同文档中的提取结果列于表１。

表１　不同方法提取的关键词

文档名称抽取方法

关键词

１２３４５

Ｍｅｄｉｃａｌ０５９

ＴｅｘｔＲａｎｋ医药杂志

出版

发行

亚洲钱信忠ＴＦＩＤＦ健身银杉康肤洗液中草药Ｗｏｒｄ２ｖｅｃ健身神草

冬虫

夏草

黑蚂蚁

强身

健体ＧＴｅｘｔＲａｎｋ产品开发中草药北京健身

Ｍｅｄｉｃａｌ０８２

ＴｅｘｔＲａｎｋ保健老人医生疗养院

百岁

老人ＴＦＩＤＦ老人保健医生疗养院

百岁

老人Ｗｏｒｄ２ｖｅｃ

百岁

老人

保健医生

济南

军区

疗养院ＧＴｅｘｔＲａｎｋ保健医生

百岁

老人

疗养院登门

可以看出，ＴｅｘｔＲａｎｋ仅仅考虑词语的共现频率，忽略了主题相关性和文本之间的语义关系，不能较好地提取出能概括出文章大意的关键词。尽管ＴＦＩＤＦ方法考虑到了文档中词语出现的频率，但未予以词语潜在语义关系充分的重视，导致所提取的关键词仍不甚理想。相较于以上方法，Ｗｏｒｄ２ｖｅｃ方法考虑到了文档的内部结构即语义关系，但结果的准确度受训练词向量好坏的影响较大，存在一定限制。本文算法综合考虑了词语共现频率、词语的主题影响度和词语之间的潜在语义关系，充分利用文档中的内部结构关系和词语之间的语义关系，提取出的关键词相对其他方法效果较好。

４　结　语

关键词在一篇文档中占据重要地位，读者通过关键词，能够摸索出文档的大致主题和内容。在对关键词进行提取时需同时考虑文档的内部结构与词语之间的语义关系，仅仅考虑其中一部分，往往获取的关键词不具有代表性。本文提出的基于万有引力改进的ＴｅｘｔＲａｎｋ算法同时把词语之间的影响力、语义关系和共现频率考虑在内，利用ＴｅｘｔＲａｎｋ算法迭代计算得到词语的排列序，进而对指定数量的关键词进行提取。本文对比了基于不同算法的关键词提取方法，实验结果表明，建立在万有引力改进基础上的ＴｅｘｔＲａｎｋ算法所提取的关键词较为理想，但是词语在文档中的位置也影响关键词提取效果。未来将进一步考虑词语位置的影响，并将其纳入算法中，作为本文的后续工作之一。

参考文献

［１］ＹａｎｇＬ，ＬｉＫＰ，ＨｕａｎｇＨＦ．Ａｎｅｗｎｅｔｗｏｒｋｍｏｄｅｌｆｏｒｅｘｔｒａｃｔｉｎｇｔｅｘｔｋｅｙｗｏｒｄｓ［Ｊ］．Ｓｃｉｅｎｔｏｍｅｔｒｉｃｓ，２０１８，１１６：３３９－

３６１．　

［２］ＭｅｒｒｏｕｎｉＺＡ，ＦｒｉｋｈＢ，ＯｕｈｂｉＢ．Ａｕｔｏｍａｔｉｃｋｅｙｐｈｒａｓ

ｅｅｘｔｒａｃｔｉｏｎ：ａｎｏｖｅｒｖｉｅｗｏｆｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔ［Ｃ］／／２０１６４ｔｈ

ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｌｌｏｑｕｉｕｍｏｎＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄ

Ｔｅｃｈｎｏｌｏｇｙ．ＩＥＥＥ，２０１６：３０６－３１３．

［３］ＷａｎｇＺＨ，ＧｕｏＹ．Ｓｅｎｔｅｎｃｅｒａｎｋｉｎｇｅｎｈａｎｃｅｄｋｅｙｗｏｒｄｓｅｘｔｒａｃｔｉｏｎｆｒｏｍｃｈｉｎｅｓｅｐａｔｅｎｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，２０１９，３５（３）：６５１－６７４．

［４］ＳｈｒａｗａｎｋａｒＵ，ＷａｎｋｈｅｄｅＫ．Ｃｏｎｓｔｒｕｃｔｉｏｎｏｆｎｅｗｓｈｅａｄｌｉｎｅｆｒｏｍｄｅｔａｉｌｅｄｎｅｗｓａｒｔｉｃｌｅ［Ｃ］／／２０１６３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｉｎｇｆｏｒＳｕｓｔａｉｎａｂｌｅＧｌｏｂａｌＤｅｖｅｌｏｐｍｅｎｔ．

ＩＥＥＥ，２０１６：２３２１－２３２５．

［５］ＳｉｄｄｉｑｉＳ，ＳｈａｒａｎＡ．Ｋｅｙｗｏｒｄａｎｄｋｅｙｐｈｒａｓｅｅｘｔｒａｃｔｉｏｎｔｅｃｈｎｉｑｕｅｓ：ａｌｉｔｅｒａｔｕｒｅｒｅｖｉｅｗ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１５，１０９（２）：１８－２３．

［６］ＣｈｉａｎｇＤＡ，ＫｅｈＨＣ，ＨｕａｎｇＨＨ，ｅｔａｌ．ＴｈｅＣｈｉｎｅｓｅｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎｓｙｓｔｅｍｗｉｔｈａｓｓｏｃｉａｔｉｏｎｒｕｌｅａｎｄｃａｔｅｇｏｒｙｐｒｉｏｒｉｔｙ［Ｊ］．ＥｘｐｅｒｔＳｙｓｔｅｍｓｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ，２００８，３５（１／２）：

１０２－１１０．

［７］ＭｉｈａｌｃｅａＲ，ＴａｒａｕＰ．ＴｅｘｔＲａｎｋ：ｂｒｉｎｇｉｎｇｏｒｄｅｒｉｎｔｏｔｅｘｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００４ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡＣＬ，２００４：４０４－

４１１．　

［８］ＢｉｓｗａｓＳＫ，ＢｏｒｄｏｌｏｉＭ，ＳｈｒｅｙａＪ．Ａｇｒａｐｈｂａｓｅｄｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｍｏｄｅｌｕｓｉｎｇｃｏｌｌｅｃｔｉｖｅｎｏｄｅｗｅｉｇｈｔ［Ｊ］．ＥｘｐｅｒｔＳｙｓｔｅｍｓｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ，２０１８，９７（５）：５１－５９．

［９］ＦｉｇｕｅｒｏａＧ，ＣｈｅｎＰＣ，ＣｈｅｎＹＳ．ＲａｎｋＵｐ：ｅｎｈａｎｃｉｎｇｇｒａｐｈｂａｓｅｄｋｅｙｐｈｒａｓｅｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｓｗｉｔｈｅｒｒｏｒｆｅｅｄｂａｃｋｐｒｏｐａｇａｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，

２０１７，４７：１１２－１３１．

［１０］ＬｉｕＺ，ＨｕａｎｇＷ，ＺｈｅｎｇＹ，ｅｔａｌ．Ａｕｔｏｍａｔｉｃｋｅｙｐｈｒａｓｅｅｘｔｒａｃｔｉｏｎｖｉａｔｏｐｉｃｄｅｃｏｍｐｏｓｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ

２０１０ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅ

Ｐｒｏｃｅｓｓｉｎｇ．ＡＣＬ，２０１０：３６６－３７６．

（下转第２９５页）

688IT编程网

基于万有引力改进的TextRank关键词提取算法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于万有引力改进的TextRank关键词提取算法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式