嵌入知识图谱信息的命名实体识别方法--688IT编程网

第50卷第3期2021年5月

内蒙古师范大学学报(自然科学版)

Journal of Inner Mongolia Normal University(Natural Science Edition)

Vol.50No.3

May2021嵌入知识图谱信息的命名实体识别方法

阎志刚，李成城，林民

(内蒙古师范大学计算机科学技术学院，内蒙古呼和浩特010022)

摘要：在大规模文本语料库上预先训练的BERT(bidirectional encoder representation from transformers, BERT)等神经语言表示模型可以较好地从纯文本中捕获丰富的语义信息。但在进行中文命名实体识别任务时，

由于命名实体存在结构复杂、形式多样、一词多义等问题，识别效果不佳。基于知识图谱可以提供丰富的结构化

知识，从而更好地进行语言理解，提出了一种融合知识图谱信息的中文命名实体识别方法，通过知识图谱中的信

息实体增强语言的外部知识表示能力。实验结果表明，与BERT、OpenAI GPT.ALBERT-BiLSTM-CRF等方法

相比，所提出的方法有效提升了中文命名实体的识别效果，在MSRACMicrosott Research Asia,MSRA)与搜狐新

闻网标注数据集上F i值分别达到了95.4%与93)%。

关键词：自然语言处理；命名实体识别；知识图谱；深度学习；知识嵌入

中图分类号：TP391.1文献标志码：A文章编号：1001—8735(2021)03—0275—08

doi：10.3969/j.issn.1001—8735.2021.03.014

命名实体识别(named entity recognition,NER)是将文本中的命名实体定位并分类为预定义实体类别的过程［］。近年来，基于深度学习的NER模型成为主导，深度学习是机器学习的一个领域，它由多个处理层组成，可以学习具有多个抽象级别的数据表示［2］。神经网络模型RNN［］(recurrent neural networ

k, RNN)有长期记忆的性能并能解决可变长度输入，在各个领域都表现出良好的性能，但会伴有梯度消失的问题。于是在RNN神经网络模型的基础之上提出了长短时记忆(long—short term memory,LSTM)模型［］。Gregoric等［］在同一输入表示中使用了多个独立的双向LSTM单元，该模型通过加入模型间正则化项增强了LSTM单元之间的多样性，并在多个较小的LSTM之间分配计算，很大程度上降低了模型的参数量。Peters等［］提出了ELMO(embeddings from language models,ELMO)模型，该模型在具有字符卷积的双层双向语言模型上计算，这种新的深度上下文本词项表示能够模拟词项使用的复杂特征(例如语义和语法)和跨语言上下文的用法差异(例如一词多义)。Liu等［7］提出字符任务感知型神经语言模型，将字符进行向量化表示，可以很好地识别新实体。Radford等［］提出了GPT(generative pre-trained transformer,GPT)用于自然语言理解任务。Devlin等［］提出了基于Transformer的BERT模型。该模型采用先预训练，再微调的方法可以捕获到更加丰富的语义信息。Zhang等［0］提出了C-GCN(contextualized graph convolutional Network,C-GCN)模型，通过图卷积运算建模依赖树用于命名实体识别。杨飘等［1］通过嵌入BERT预训练语言模型，构建BERT-BiGRU-CRF模型用于表征语句特征。针对BERT模型参数量大，训练时间长，实际应用场景受限等问题，邓博研等［12］提出了一种基于ALBERT(alite BERT,ALBERT)的中文命名实体识别模型ALBERT-BiLSTM-CRF。在结构上，先通过ALBERT预训练语言模型在大规模文本上训练字符级别的词嵌入，然后将其输入BiLSTM模型以获取更多的字符间依赖，最后通过CRF(conditional random field, CRF)进行解码并提取出相应实体。

收稿日期:2020-12-16

基金项目：国家自然科学基金资助项目(61806103,61562068)；内蒙古自治区自然科学基金资助项目(2017MS0607)；内蒙古自治区民委蒙古文信息化专项扶持子项目(MW-2014-MGYWXXH-01)；内蒙古自治区科技计划资助项目(JH20180175)；内蒙古师范大

学研究生创新基金资助项目(CXJJS19151).

作者简介：阎志刚(1984—)，男，山西太原人，在读硕士研究生，主要从事自然语言处理研究.

通讯作者：李成城(1971—)，男，内蒙古呼伦贝尔人，教授，博士，主要从事自然语言处理、人工智能研究，E-mail cieclcc@imnu.edu.

・276・内蒙古师范大学学报(自然科学版)第50卷

鉴于中文命名实体存在结构复杂、形式多样、一词多义等问题，本文提出了一种融合知识图谱的中文命名体识别方法，通过知识图谱中的信息实体增强语言的外部知识表示能力，从而提升中文命名体的识别效果。

1相关工作

11知识图谱

知识图谱是由图和知识组成［3］，将数据结构化并与已有的结构化数据相关联，就构成了知识图谱。2012年谷歌正式提出知识图谱(knowledge graph)的概念，旨在实现更智能的搜索引擎。知识图谱本身是一个网状知识库，由实体通过关系链接而形成。它以结构化的形式描述客观世界中的概念、实体及其之间的关系，将互联网的信息表达成更接近人类认知世界的形式。知识图谱的表示形式为G=(E,R,S)，其中E={1e,…，e e}表示知识库中的实体集合，R={t,T2,…，T|e}表示知识图谱中的关系集合，S灹

E X R X E表示知识图谱中三元组的集合。

1.2BERT模型

1.2.1Transformer体系结构BERT的模型体系结构是基于Vaswani等［4］描述的原始实现，是一个多层的Traisformer。具体Transformer模型的编码器共四层：第一层是多头注意力机制(multi-head attention)；第二层是求和与归一化层，用于解决深度神经网络中的梯度消失问题；第三层是前馈神经网络层；第四层也为求和与归一化层，用于生成中间语义编码向量并传送给解码器。

解码器和编码器结构类似，共包含六层。区别在于第一层是带MASK操作的多头注意力机制层，在输出时，当前时刻无法获取未来的信息，因此解码器的输出需要右移，并遮挡后续的词项进行预测。最后解码器再经过一个线性回归和Softmax层输出解码器最终的概率结果。Transformer模型架构如图1所示。

图1Transformer模型架构

Fig.1Transformer model architecture

1.2.2BERT模型的输入表示BERT模型将词向量、句向量和位置向量叠加起来一同作为输入，且在开头和结尾分别加入［CLS］和［SEP］两个特殊字符，两个句子之间使用［SEP］进行分割。BERT模型的输入具体包括三个方面。

(1)使用学习的位置向量，支持的序列长度最多为512个词项。每个序列的第一个词项始终是特殊分类嵌入(［CLS］)，对应于该词项的最终隐藏状态(即Transformer的输出)，常被用作分类任务的聚合序列表示。对于非分类任务，将忽略此向量。

(2)句子对作为一个序列进行输入，以两种方式区分句子。首先，用特殊标记(［SEP］)将它们分开。其次，添加一个学到的句子A嵌入第一个句子的每个词项中，一个句子B嵌入第二个句子的每个词项中。

第3 期阎志刚等：嵌入知识图谱信息的命名实体识别方法・277・

(3)对于单个句子输入，只使用句子A 嵌入.

2融合知识图谱信息的命名实体识别方法

传统的BERT 可以较好地挖掘出文本数据中的语义信息，但几乎没有考虑结合知识图谱对命名实体进行识别。针对语言理解，知识图谱能够为其提供更丰富的结构化信息.基于传统的BERT 模型，该方法加入了知识图谱信息，使词嵌入以及知识嵌入联合嵌入，这样可以更有效的学习到语义知识单元的完整语义表示，提升命名实体识别的性能.

2. 1 标记策略

设定词项序列标记设定为｛W 1 ,W 2,…，W n ｝，其中n 是词项序列的长度.同时将与词项序列对齐的实体序列标记设定为｛e ，2，・・・，m ｝，其中m 表示实体序列的长度.此外，将包含所有标记的整个词汇表记为V, 包含知识图谱中所有实体的实体序列表的集合记为E .如果一个词项w E V ，并且有与其对齐的实体"暿E, 则定义这种对齐方式为fW )=e .

2.2模型结构

模型主要包含抽取知识信息与训练语言模型两大步骤.

(1) 对于抽取并编码的知识信息，首先识别文本中的命名实体，然后将识别出的实体与知识图谱中的实体进行匹配.该模型并不直接使用知识图谱中基于图的事实，而是通过知识嵌入算法对图结构进行编码，并将多信息实体嵌入作为相关输入，基于文本和知识图谱的对齐，将知识模块的实体表示整合到语义模块的隐藏层中.

(2) 借鉴BERT 模型的思想，该模型采用带Mask 的语言模型，同时预测下一句文本作为预训练目标。此外，为了更好地融合文本和知识特征，设计了一种新型的预训练目标，即随机掩盖掉部分对齐输入文本的命名实体，并要求模型从知识图谱中选择合适的实体以完成对齐.本模型要求同时聚合上下文和知识事实的信息，并预测词项和实体，从而构建出一种知识化的语言表示模型.

本模型一方面利用T-Encoder 从文本中捕获基本的词法和语法信息；另一方面利用K-Encoder 将知识图谱集成到底层的文本信息中，最终将词汇信息和实体的异构信息表示为统一的特征空间.

在T-Encoder 编码器中，首先对词嵌入、句子嵌入及位置嵌入进行合并，作为T-Encoder 的输入，如图2 的词项输入.而后通过(1)式计算词法和语义特征，即

｛w ],・・・,w n ｝ = T-Encoder (｛w ],・・・,w n ｝ ) . (1)

聚合器

多头注意力机制

叩)

词项输入也词项输出直] 应T 实体输出

信息融合

多头注意力机制也史]实体输入

图2 K-Encoder 编码器中的聚合器

Fig. 2 Aggregators in the K-Encoder

在K-Encoder 编码器中，首先抽取文本中对应的实体，通过知识图谱嵌入法将实体转为对应向量表示｛1，…，m ｝，如图2所示.然后将W 1，…W n ｝及｛1 ,…，m ｝作为K-Exi coder 的输入，即

・278・内蒙古师范大学学报(自然科学版)第50卷

{W,…，e m}=K-Encodrr({w1,w n},{e1,••-,e m})。(2)输出结果{W,…，wn}和{e°,■■-,e°m}将作为相关任务的特征。具体而言，K-En coder编码器由堆叠的聚合器构成，这些聚合器旨在对词项和实体编码以及融合其异构特征。在相关聚合器i中，通过多头自注意力机制表示词嵌入和实体嵌入，即

{tx)1，…，}=MH―ATT({w1'—1)，…，w(—"}),(3)

{e，-，m}=MH—ATT({e1T,…，en’-1})。(4)聚合器采用信息融合层用于词项和实体序列的融合，并计算每个词项和实体的输出嵌入。对于词项w，及其对齐实体e»=f(w j)，信息融合过程为

h=。(w e j w e j+w v v+~c)),

(5)

w j=ow t h j+b i),e=。(w e j h j+b i),

正则化匹配26个字母python

其中：h，表示集成词项和实体信息的内部隐藏状态；氁表示GELU激活函数。通过这样的方式，将实体的知识信息融入对文本语义的增强表示中。对于没有相应实体的词项，信息融合层会计算输出嵌入而无需集成，即

h,=。(W j W j j+~i),w i=ff(W i h j+皤)。(6)此外，为简单起见，第i层聚合器(Agg)操作由(7)式表示。顶层聚合器计算的词项和实体的输出嵌入将用作K-Encoder的最终输出嵌入。

{w U…，w i},V s,…，e m>}=Agg({w1—T,,■■■,w n t—T,},{e(i,…，e m—1)})。(7) 2.3知识增强

为了将知识融入信息性实体的语言表示中，提出了一项新的预训练任务，该任务随机掩盖了一些已经对齐的词项和实体，而后要求系统根据对齐的词项来预测所有相应的实体。给定词项序列{W1，…，w”}和与它对齐的实体序列{1，…，”}，关于词项w,，对齐的实体分布定义如式(8)，式中Li表示线性层，该式也将用于计算预训练任务的交叉熵损失函数。

p(e|w.)=丁p(L(wC)v)。(8)暺exp(Li(w j)e,)

k=1

鉴于词项实体对齐方式存在一些问题，制定以下操作。

(1)在5%的时间内，对于给定的词项实体对齐方式，将实体替换为另一个随机实体，目的是训练相关的实体模型，解决词项与错误实体对齐的问题；

(2)在15%的时间内，掩盖掉词项实体对齐方式，目的是训练相关模型，解决实体对齐方式未提取全部现有对齐方式的问题；

(3)在剩余时间内，保持词项实体对齐不变，使得模型将实体信息集成到词项表中，以更好地理解语言。

与BERT模型相似，该模型还采用掩码语言模型(MLM)以及下一个句子预测作为预训练任务，使模型能够从文本标记中捕获词汇和句法信息。

3实验设计

3.1数据集与评价指标

实验数据集采用MSRA以及搜狐新闻网数据集，其中MSRA数据集在16MB左右，共计50000余条信息，标注质量较高，是传统NER的首选数据集。搜狐新闻网数据集为手工标注数据集，大小6MB左右，共计20000余条信息。实验中将上述数据集随机划分为三部分，即训练集占比70%、验证集占比20%、测试集占比10%o在中文命名体识别研究领域，MSRA以及搜狐新闻网数据集被广泛应用在科学研究中。

基于准确率P、召回率R以及F1值对模型性能进行全面评估，即

P=T［匚x100%,

T p+F”

R=T匕x100%,(9) T p+F n

第3期阎志刚等：嵌人知识图谱信息的命名实体识别方法-279-

2PR

P+R

X100%,

其中：T p表示正确识别出的命名实体数量；F p表示识别错误的命名实体数量；F n表示未识别出的命名实体数量。

3.2实验参数设置

相关实验的软硬件环境见表1。

在对模型进行训练时，基于随机梯度法优化模型，通过Dropout层减少过拟合情况的发生。训练迭代次数默认为8500次，初始学习率为5X10-5，权重惩罚项为权重衰减，预设值为0.05。具体设置见表2。

表1相关实验的软硬件环境

Tab.1Hardware and software environment of relevant experiments

操作系统Ubuntu16.04操作系统Ubuntu16.04

CPU Intel(R)Core(TM)i7—8750H

CPU@ 2.20GHz2.21GHz

Python Python3.6

GPU NVDIV TESLA T4Pytorch PyTorch1.4.0

表2模型相关参数设置

Tab.2Modelparametersse t ing

参数名称预设值参数名称预设值attention_probs_dropout_prob0.30暋max_position_embedclings512

hidden_act Relu num_attention_heads12

hidden_dropout_prob0.50暋num hidden layers12

hidden_size768.00暋type_vocab_size2

initializer_range0.02暋vocab_size30522

3.3实验结果分析

3.3.1相关对比模型为验证提出模型的有效性以及鲁棒性，选取近年来6种较经典的命名体识别模型，包含 HMM、BiLSTM-CRF、BERT、OpenAI GPT、ALBERT-BiLSTM-CRF以及C-GCN。通过对比相关模型的准确率、召回率以及F1值评价改进模型的性能。

(1)HMM：隐马尔可夫模型是关于时序的概率模型，随机生成状态序列，每个状态生成一个观测，由此产生的随机序列称为观测序列。

(2)BiLSTM-CRF：该模型是序列标注任务中的经典神经网络模型，采用预训练好Word2Vec向量作为BiLSTM网络的输入进行特征提取，然后将其特征矩阵输入CRF中完成序列标注。

(3)BERT：该模型将文本中的每个字转换为一维向量，作为模型输入；模型输出则是融合全文语义信息后的向量表示。此外，模型输入除了字向量，还包含另外两个部分。文本向量：该向量的取值在模型训练过程中自动学习，用于刻画文本的全局语义信息，并与单字/词的语义信息相融合。位置向量：由于出现在文本不同位置的字/词所携带的语义信息存在差异(比如“我爱你”和“你爱我”)，因此,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分。最后，BERT模型将字向量、文本向量和位置向量的加和作为模型输入。

(4)OpenAI GPT：基于transformer，该模型共包含两阶段的训练任务。首先使用语言建模目标，在未标记的数据上使用transformer来学习初始参数，然后运用监督目标使相关参数适应目标任务，从而使预先训练的模型发生较小变化。

(5)ALBERT-BiLSTM-CRF：该模型先通过ALBERT预训练语言模型在大规模文本上训练字符级别的词嵌入，然后将其输入BiLSTM模型以获取更多的字符间依赖，最后通过CRF进行解码并提取出相应实体。

688IT编程网

嵌入知识图谱信息的命名实体识别方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

嵌入知识图谱信息的命名实体识别方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式