(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 110851570 A
(43)申请公布日 2020.02.28
(21)申请号 CN201911114365.6
(22)申请日 2019.11.14
(71)申请人 中山大学
    地址 510275 广东省广州市海珠区新港西路135号
(72)发明人 张兴宇 潘炎 印鉴
(74)专利代理机构 广州粤高专利商标代理有限公司
    代理人 林丽明
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于Embedding技术的无监督关键词提取方法
(57)摘要
      本发明提供一种基于Embedding技术的无监督关键词提取方法,该方法利用图卷积词嵌入技术得到文章单词的语义兼句法词向量;利用Node2Vec技术训练单词的共现关系拓扑图,从而得到共现特征词向量;利用主题词嵌入技术,得到文章单词的主题词向量;将单词的三种特征向量拼接得到混合词向量,利用混合词向量计算单词间的余弦相似度去构造单词拓扑图,使用PageRank图迭代算法得到单词的重要性分数。该方法运用多种词嵌入技术,综合了单词间的语义、句法、共现以及主题多种关联特征,使得提取效果得到大大的提升。
法律状态
法律状态公告日
法律状态信息
法律状态
2023-04-18
授权
发明专利权授予
权 利 要 求 说 明 书
1.一种基于Embedding技术的无监督关键词提取方法,其特征在于,包括以下步骤:
S1:对文档进行切词和词性标注,得到一个单词集合W;
S2:利用词性标注和“形容词+名词”模式得到一系列候选短语;
S3:利用无监督图卷积词嵌入技术得到集合W中每个单词的句法兼语义词向量Gi;
S4:以W集合中单词的共现关系构造单词的共现拓扑图,使用Node2Vec技术训练得到单词的共现特征向量Ni;
S5:利用主题词嵌入技术得到集合W中每个单词的主题词向量Ti;
S6:将W集合中单词的三种向量进行拼接得到混合词向量Vi=[Gi,Ni,Ti],利用混合词向量得到单词之间的余弦相似度,以单词为节点,相似度作为边权构造单词的拓扑图。利用PageRank算法迭代单词的分数;
S7:根据单词的分数间接对候选短语排序,从而得到关键词。
正则匹配关键词
2.根据权利要求1所述的基于Embedding技术的无监督关键词提取方法,其特征在于,所述步骤S3的具体过程是:
S31:以句子为单位,构造每个句子的句法依存树;
S32:利用图卷积神经网络和句法依存树中单词的邻居关系去得到每个单词的隐层状态,即向量表示Gi;
S33:利用每个单词的邻居集合去极大化该单词的条件概率,以此作为图卷积神经网络的损失函数,去训练得到单词的词向量。该向量具备单词的语义和句法依存特征。
3.根据权利要求2所述的基于Embedding技术的无监督关键词提取方法,其特征在于,所述步骤S4的具体过程是:
S41:设置共现窗口,在文章中进行滑动,将两个单词出现在同一窗口的次数作为单词间的共现次数,以单词为节点,单词间的共现次数构造单词的共现拓扑图;
S42:利用Node2Vec技术,去训练单词的共现拓扑图,将单词节点向量化,每个单词的向量Ni融入了该单词的共现关联特征和共现图的结构相似特征。
4.根据权利要求3所述的基于Embedding技术的无监督关键词提取方法,其特征在于,所述步骤S5的具体过程是:
S51:利用LDA主题模型得到文章中的K个潜在主题,每个单词分配一个主题;
S52:替每个单词和主题都保留不同的嵌入向量Ui与Ki,将单词和主题的向量进行拼接Ti=[Ui,Ki],利用word2vec的原理去训练拼接后的向量Ti;
S53:将训练好的单词向量和其对应的主题向量进行拼接,得到该单词的主题词向量Ti,该向量融入了语义特征和主题特征。
5.根据权利要求4所述的基于Embedding技术的无监督关键词提取方法,其特征在于,将步骤S3、S4和S5步骤
中的三种词向量进行拼接,得到混合词向量Vi=[Gi,Ni,Ti],该向量兼具单词的语义特征、句法依存特征、共现关联特征以及主题特征。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。