(19)中华人民共和国国家知识产权局
(12)发明专利说明书正则化可以理解为一种什么法
(10)申请公布号 CN 106682095 A
(43)申请公布日 2017.05.17
(21)申请号 CN201611089639.7
(22)申请日 2016.12.01
(71)申请人 浙江大学
    地址 310058 浙江省杭州市西湖区余杭塘路866号
(72)发明人 鲁伟明 刘佳卉 庄越挺 吴飞 魏宝刚
(74)专利代理机构 杭州求是专利事务所有限公司
    代理人 刘静
(51)Int.CI
      G06F17/30
      G06K9/46
      G06K9/62
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于图的主题描述词预测及排序方法
(57)摘要
      本发明公开了一种基于图的主题描述词预测及排序方法。首先,将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词为图的两个互不相交的子集,不同集合的顶点之间边的关系即为主题词和描述词之间的关系。再利用图的张量积方法将二部图的预测问题转化为顶点标签的传播问题。然后利用矩阵的分解、特征值矩阵等方法降低矩阵的秩,解决预测过程中的计算瓶颈,同时需要对主题词及描述词数据进行聚类及过滤,再构造训练集对主题词进行描述词预测,接着,利用SVM‐rank的排序方法对预测结果进行排序,最后对排序结果进行二次层次聚类,类簇中所有描述词的平均得分作为该类簇的排序得分,从而得到最后的关于这个主题的描述词序列。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种基于图的主题描述词预测及排序方法,其特征在于,包括以下步骤:
1)主题描述词的预测问题转化:将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词可视作该二部图的两个互不相交的子集,属于不同集合的顶点之间边的关系即为主题词和描述词之间的关系,预测主题词和描述词之间的属于关系即预测存在边的可能性得分;
2)预测问题映射:对步骤1)中得到的预测问题,利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图的乘积运算,将主题词图和描述词图融合为一个图,图中的每个顶点表示(主题词,描述词),预测问题映射为预测图中不相连顶点之间边的存在问题;
3)基于图的转导推理:构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系;
4)问题优化,解决预测过程中的计算瓶颈:通过矩阵的奇异值分解以及矩阵的特征值、特征向量,矩阵的秩,降低矩阵运算维度;
5)数据过滤:通过描述词的词向量对描述词进行层次聚类,将词向量相似度高于或等于0.85的描述词视作一类描述词,在处理过程中不需要重复预测,同时过滤掉聚类后聚簇中只有一个的描述词;
6)描述词排序:选取预测结果中可能性最高的20个描述词,对20个描述词进行二次聚类,将词向量相似度高于或等于0.65的描述词视作一类描述词,构造训练集,利用支持向量机的方法对预测得到的每个描述词进行排序,每个类簇中所有描述词排序的平均值作为该类簇的排序,从而得到关于这个主题的描述词序列。
2.根据权利要求1所述的一种基于图的主题描述词预测及排序方法,其特征在于,所述步骤1)具体为:
将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词视作该二部图的两个互不相交的子集,两集合中顶点之间边的关系即为所需预测的主题词和描述词之间的关系,对主题词进行分词并训练得到词向量,利用向量空间的余弦相似度计算得到主题词之间边的权重,描述词与描述词在所有主题词中共同出现的次数作为描述词之间边的权重,主题词与描述词是否共同出现过作为主题词与描述词之间的相关度。预测问题转化为预测未知主题词和描述词之间的边权重关系,权重越大,说明该描述词隶属该主题词的可能性越高。
3.根据权利要求1所述的一种基于图的主题描述词预测及排序方法,其特征在于,所述步骤2)预测问题映射,具体为:
利用图的张量积将二部图的预测问题转化为顶点标签的传播问题,通过图(矩阵)的乘积运算,将主题词图G和描述词图H融合为一个图A,图中的每个顶点表示(主题词,描述词)的二元关系,预测问题映射为预测图中不相连顶点之间边的问题,若图G和图H通过张量积运算得到图A,则:
<Image></Image>
<Image></Image>
其中,<Image>表示向量的乘法,λ表示矩阵的特征值,μ,υ表示矩阵奇异分解后的奇异向量,i表示G的下标,j表示H的下标。
4.根据权利要求1所述一种基于图的主题描述词预测及排序方法,其特征在于,对步骤2)中已经构建好的二部图的转导推理,具体为:
通过步骤2)已经得到了由主题词图G和描述词图H通过张量积得到的图A,通过基于图的转导推理即构造损失函数以及图的正则化方程,得到学习目标,利用给定的主题词和描述词构造的顶点信息进行预测,得到未知的主题词与描述词之间的关系矩阵f,构造如下所示的学习目标:
<Math><MathText>><mrow><munder><mi>min</mi><mi>f</mi></munder><mi>l</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>+</mo><msup><mi>λf</mi><mi>T</mi></msup><msup><mi>A</mi><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>f</mi></mrow></math>></Math>
其中,l(f)是损失函数,表示f与图A中实际存在的边之间的差值,用来衡量预测结果的好坏,λf<Sup>T</Sup>A<Sup>-1</Sup>f为学习函数的正则化项,用来衡量图的平滑度;
假设f遵从近似高斯分布,即f~N(0,A),那么学习目标得到增强,可以转化为:
<Math><MathText>><mrow><munder><mi>min</mi><mi>f</mi></munder><mi>l</mi><mrow><mo>(</mo><mi>f</mi><mo>)</mo></mrow><mo>+</mo><msup><mi>λf</mi><mi>T</mi></msup><mi>κ</mi><msup><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mi>f</mi></mrow></math>></Math>

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。