(19)中华人民共和国国家知识产权局
正则化一个5 5随机矩阵
(12)发明专利说明书
(10)申请公布号 CN 107392229 A
(43)申请公布日 2017.11.24
(21)申请号 CN201710476332.0
(22)申请日 2017.06.21
(71)申请人 清华大学
    地址 100084 北京市海淀区清华园北京100084-82信箱
(72)发明人 孙茂松 涂存超 刘知远
(74)专利代理机构 北京路浩知识产权代理有限公司
    代理人 王莹
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于最面向社会关系抽取的网络表示方法
(57)摘要
      本发明涉及一种面向社会关系抽取的网络表示的方法,属于机器学习及网络表示学习的技术领域,所述方法包括如下步骤:为网络节点之间的边进行关系标注;利用基于平移的网络表示学习方法学习网络节点表示及关系表示;利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取。本发明能够利用平移的思想对网络节点及它们之间的关系进行建模,在关系抽取任务上取得了显著的提升。同时,这种方法能够适用于不同类型网络的表示学习和关系抽取中,具有良好的适用范围及可扩展性。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种基于最面向社会关系抽取的网络表示方法,其特征在于,包括:
为网络节点之间的边进行关系标注;
利用基于平移的网络表示学习方法学习网络节点表示及关系表示;
利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取。
2.根据权利要求1所述的方法,其特征在于,所述为网络节点之间的边进行关系标注包括:
建社交网络数据集;
根据交互文本信息进行边的关系标注;
对标注关系的边划分训练集测试集。
3.根据权利要求2所述的方法,其特征在于,所述建社交网络数据集包括:
抓取收集网络中的节点之间的关联信息,以及节点之间交互的文本信息。
4.根据权利要求2所述的方法,其特征在于,所述根据交互文本信息进行边的关系标注包括:
利用关键词抽取或命名实体识别方法,从交互的文本信息中抽取标签,利用所述标签作为边的关系的标注。
5.根据权利要求2所述的方法,其特征在于,所述对标注关系的边划分训练集测试集包括:
对已经标注好关系的边,抽取一定的比例作为训练集,用于训练网络节点表示,剩余部分用作测试集,用来测试训练好的网络表示在关系抽取上的效果。
6.根据权利要求1所述的方法,其特征在于,所述利用基于平移的网络表示学习方法学习网络节点表示及关系表示包括:
构件社交网络,完成对其中边的关系进行标注;
根据节点与节点之间的网络信息及标注好的关系,来学习每个节点的表示向量;
通过一个深层自动编码器来获得该向量表示;
设计模型目标函数;
对目标函数优化得到每个节点的表示向量及关系的表示向量。
7.根据权利要求1所述的方法,其特征在于,所述利用学习到的网络节点的表示及关系表示对未标注的边进行关系抽取包括:
通过得到边的近似的表示向量,然后通过深层自动编码器的解码器部分进行解码,得到重构出的标签向量,将重构向量与标准值进行对比来评价模型效果。
说  明  书
技术领域
本发明涉及机器学习以及网络表示学习技术领域,具体涉及一种基于最面向社会关系抽取的网络表示方法。
背景技术
本部分向读者介绍可能与本发明的各个方面相关的背景技术,相信能够向读者提供有用的背景信息,从而有助于读者更好地理解本发明的各个方面。因此,可以理解,本部分的说明是用于上述目的,而并非构成对现有技术的承认。
真实世界中的实体,通常会互相交互,形成大规模的复杂网络。近些年来,从社会学领域到计算科学领域,针对网络分析的研究取得了巨大的进步。传统的网络分析的技术,会把每个网络节点看作一个唯一的符号。这种表示方法通常面临着稀疏性问题,对于许多任务,例如节点分类、个性化推荐、异常检测以及关系预测,都极大的影响了最终的效果。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。