第23卷第1期2021年1月
Vol.23,No.1
0anuaey2021大连民族大学%报
Journal of Dalian Minzu University
文章编号:2096-1383(2021)01-0073-08
辽代历史文化资源知识图谱构建研究
刘爽,谭楠楠,杨辉
(大连民族大学计算机科学与工程学院,辽宁大连116650)
摘要:目前网络上关于辽代历史信息化智能查询服务系统资源相对缺乏,关于辽代历史介绍文本篇幅冗长,不方便大众进行阅读观看。为了便于大众能更加快速准确了解相关的辽代历史知识,基于百度百科、搜狗百科以及基于爬虫技术等形式获取了与辽代历史相关的文本数据,采用B-STM-CRF模型进行实体抽取,通过关系抽取模型抽取实体间的关系,通过知识融合等技术对得到的数据进行实体对齐以及本体构建。最终构建辽代历史文化领域知识图谱,并在此知识图谱的基础上开发了可视化查询系统%
关键词:辽代历史文化;知识图谱;知识抽取;命名实体识别
中图分类号:TP391.1文献标志码:A
Research on the Construction of Knowlenge Graph of Historical and
Culteral Resources of the Liao Dynasty
LIU Shuang,TAN Nan-nan,YANG Huc
(School of Computer Science and Enaineeyna,Dalian Minzu University,Dalian Liaoning116650,China)
Abstrach:It is found that the resourcee of the intelligent ques semice system about the histoDcal information of the Liao Dynasty on the Internet are mlatively lacking-At the same time,the tete on the Internet about the histos of the Liao Dynasty are relatively lengthy and inconvenient far the public St read-In order St facilitate the public St understand the relevent histoDcal knowledge of the Liao Dynasty more quickly and accurately,thie study first obtains text data related to the histos of the Liao Dynasty based on Baidu Encyclopedia,Sogou Encyclopedia,and crawler technology.Net,the BiLSTM一CRF model is used for entity extraction,and the relationship between entities is extracted through the relationship extraction m odel-Then,entity alignment and ontology construction are peyormed on the obtained data through knowledge fusion technology.Fin—y,a knowledge graph of the histos and culture of the Liao Dynasty is constru
cted,and a visual ques system L developed on the basis of thm knowledge graph.
Key wo U s:histos—d cultus of the Liao Dynasty;knowledge graph;knowledge extraction;
named entity recognition
随着语义网的发展,目前互联网上发布越来越多的结构化数据、半结构化数据、非结构化数据,并将其作为链接数据发布。在此背景下, Google在2012年提出知识图谱(Knowledge Graph)这一概念,旨在改善搜索引擎效果[1]%知识图谱以结构化三元组的形式来进行存储,基本组成单位由头实体、尾实体以及描述这两实体之间的关系组成。通用表示方式为G=(E,R,S),其中E={B],e2,e3…,e|E表示实体集合,R= {4,42,r3…,4|R}表不关系集合,S+E(R(E 表示知识图谱中的三元组集合。目前对知识图谱的研究应用主要分为通用领域知识图谱和垂直领
收稿日期:2020-10-05;最后修回日期:2020-11-03
基金项目:辽宁省经济社会发展研究课题(2021aabkt-022) %
作者简介:刘爽(1977-),女,满族,辽宁锦州人,副教授,博士,主要从事知识图谱、智能信息处理研究
74大连民族大学学报第23卷
域知识图谱。典型的中文通用领域知识图谱有CN-DBpedia(2)&(3)、Ownthink⑷、XLore[5】等。上述通用领域知识图谱虽收集了大量的领域知识,但无法深入对某一领域内的知识进行详细描述。垂直领域知识图谱在这方面的优势大于通用领域知识图谱,但是该领域知识图谱构建通常采用手工构建,需要消耗大量的人力财力。
正则匹配到第一个关键字就停止经过调查发现,现有通用领域知识图谱中含有部分关于辽代历史文化资源相关的内容,但是现有知识图谱从规模化、规范化、形式化等方面任有很大的提升空间目前垂直领域中关于辽代历史文化资源的知识图谱还没有,如何基于高效的知识工程方法以及先进的文本数据挖掘技术,构建大规模、高质量的辽代历史知识图谱,仍是极具挑战性的课题。
本文初步探讨了辽代历史领域知识图谱当前面临的机遇和挑战,从新的领域知识图谱角度提出了辽代历史领域知识图谱构建技术。针对辽代历史领域的特点对知识各个环节的关键技术流程进行专项研究,利用自然语言处理、文本数据挖掘技术和知识抽取、知识融合等知识图谱构建技术,采用人机结合的方式构建了辽代历史文化资源知识图谱。
1相关研究
命名实体识别(Named Entity Recognition, NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别[7]%目前命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、基于神经网络的方法等。其中基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立%基于统计机器学习方法将NER视作序列标注任务,
利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。常用的方法主要包括:隐马尔可夫模型[8](HMM)、最大爛⑼#ME)&支持向量机(10)(SVM)、条件随机场(11)(CRF)%基于神经网络的方法在硬件能力的发展以及词的分布式表示(word embedding)的出现,成为可以有效处理许多NLP任务的模型%其中主要模型有CNN-CRF、RNN-CRF、LSTM-CRF等%
随着互联网技术的高速发展,人们在对通用领域数据进行实体抽取的同时开始关注垂直领域的实体抽取,然而垂直领域的数据文本有其自身的特点,进行实体抽取时需考虑其自身特点[12]%在命名实体识别的工作中,主要分为基于规则的、基计机器学的和基
网络的方法%其中常见的基于统计机器学习的模主要有马、大、支持向
机和条件随机场等%然而,这些方法在进行特征提取时需要人工进行完成%同时在模型训练方面需要大量的人工标注样本,并且效果不明显[13]%基于神经网络的方法在命名实体识别任务中通常被当作序列标注任务,通过建立序列标注模型对文本进行实体识别%2011年CoXobeT14]等采用卷(CNN)进行提,同通
过融合其他特征效果上取得不错的识别效果%丁晟春[15〕等人针对网络公开平台上的多源异构的企业数据的散乱、无序、碎片化问题,提出Bt-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作%何春辉[16]等人利用电子文档在糖尿病领域中取得了较好的应用,实验结果表该在包含15实类的数据集上
率达到了89.14%。李永苗(17)利用BiLSTM网络对中文电子病历中的实体进行提取,构建出了中文电子病历知识图谱%Feng18〕等提出了一种基BoLSTM的结构的名实%买买提阿依甫[19〕等人根据维吾尔语的特点,提出了BiLSTM-CNN-CRF模型%李丽双[20〕等人将CNN-BiLSTM-CRF模型应用在生物医学语料上,获得了当时最高F1值%柳润杰[21]通过使用BiLSTM-CRF模型将《二十四史》中的人名、地名、时间等实体识别后,在此基础上构建了《二十四史》知识图谱%
本文在进行辽代历史文化实体识别中将使用BiLSTM-CRF的深度神经网络模型%首先将输入的词由one-hot向量映射为低维稠密的字向量(chaeacieeembeddony),将的向序列作为输入传入到BiLSTM神经网络模型中进行实体识别,然后CRF模型将会对BiLSTM模型输出的结果进行解码操作,得到一个最优标记序列,最的实信%
第1期刘爽,等:辽代历史文化资源知识图谱构建研究75
2辽代历史文化知识图谱整体构建方案
目前
辽代 文化 图谱还未
%
因此本文定 辽代 文化 图谱工程构建
研究,旨在介绍我 的辽代 文化 图
谱,其构过程主要包括本体构建、
、知
融合等步骤%本体定义了辽代
图谱构建中
要的实 系类型%基本体对结构化数
据、非结构化数据进行处理 储于Neo4j 图数
据库中。辽代
图谱构建流程图如图1 %
在辽代 文化 图谱的构建过程中,本
文中 图谱构
有数据类型包括结构化数
据、半结构化数据和非结构化数据,其中结构化数
据 上通用 百科 图谱中的数据,
本文中所有的通用 图谱为Ownthink I CN-DBpedia ;半结构化数据主要 百度百科、 互动百科,针对半结构化数据通过使用包装器来
进行获取,其中包装器的生成 有三大类:手
、包器
和自动 %本文主要使用手
,通过人工分析构建包装器信息的规则,以
获 中的半结构化数据;针对非结构化数据 互 上 辽代 相数据,通过使用 技术进行获取大
的辽代
文本数据,在将获得的网文本数据进行处理%处理过程主要通过 迭
代的方式逐步扩大
则%辽代 的非结构
化数据主要包括 文章、史料籍等,适合采用
基于深度学习的有监
%
通过上述技术手段大大的提升了辽代 知
图谱构建的自动化程度%但作 个辽代
图谱,不仅要 构建图谱信 真实性
和
性,还要
的充分性%针对后
,
充分利用现有
库中
辽代 信息对
进行补充,通过 有
库中与辽代 .
相关的三元组信
充实本文中使用 构建的
图谱,以
有足够多的数据量%
在数据处理过程中,充分使用中文分词工具 jieba 分词、正则表达式;在
过程中通过命
名实 、关系 获取文本数据中的实体和关系,在进行命名实体部分本文采用BiLSTM -
CRF :
进行
非结构化文本数据
中的实体;在系 过程中,使用 上集成的
系 DeepDivv 进行
文本的实体与实 的关系,从构
图谱 要的三
组数据%在 和数据整合完成后,在对
不同
的同一实体进行对齐、合并的操作,最后
获得质
高的三元组数据,通过LOAD 存
Neo4j 数据库。
知识困谱
知识融合
__________________ I ---------------------------------- I
属性校正
实体提取
关系提取
属性提取
知识抽取
半结构化敎据非结构化数据
实体对齐知识表示第三方数据库
本体构建
结构化数据数据整合
质量评估知识更新
图1辽代历史文化知识图谱构建流程
3辽代历史文化知识抽取
3.1
本文的BiLSTM - CRF 模型框架如图2% B oLSTM - CRF 三 分组成: 第 分
层,第二部分 ,第三部分是标注层%其过程
如下:首先将输入的词由one - hot 向量映射为低
维稠密的字向量,然后将得到的字向量序列作为
输入传入到BiLSTM 神经网络模型中进行实体识
别,最后CRF 模型将会对BiLSTM 模型输出的结
果进行解码操作,得到一个最优标记序列%
76大连民族大学学报第23卷
3.2BiLSTM
循(RNN)中一类重要的结构,从理论上来说,RNN可以动态的捕获序列数据信息,但是在实际使用过程中梯度消失和梯度爆问题,长短期记忆[22](LSTM)可以的解类问题。对名实说,要的实体句子分布:不同,其文本中的上下文信息的重要程度也不同%为了更好的利用上下文中的信息,本文采用双向LSTM结构进行模型训练%
3.2.1LSTM
LSTM是RNN的变体,旨在解决这些梯度消失的问题%基本上,一个LSTM三个乘法组成,这些控制信息遗忘和传递给下一时间步骤的信息比例%这些门控(Input Gatv)、遗忘[(Forget Gaiv)、输出门(Output
其LSTM单元在t时刻更新公式如下:
&=&(1+C r+T),(1)
L=&(,"t_1+C%+T),(2)
0=+C%+T),(3)
0=力。018iQ0,⑷
:=&(兀h*1+C r+T),(5)
h t=o,Qtanh(q)%(6)式中:,丿为遗;0为新记忆;
o为最终记忆;o;h*;&表示si.g:oi.d激数;tanh表双曲正切激活数;Q表不对应兀素;,、乃、,八,表不的权重矩阵;表示偏差向量%3.2.2BiLSTM
在使用LSTM后将会得到与句子长度相同的隐层状态序列[h1,h2,…,h”];本文中使用的BiLSTM网络,在t时刻将会得到前向和后向2个方向的状态序列[得,得,…,得]和[K,K,
…,h/n],成的状态序列
得向前和向隐层状态序列拼接生成,即h=[得:/%BiL-STM单元的基本结构如图4%
图4BiLSTM
网络结构图
第1期刘爽,等:辽代历史文化资源知识图谱构建研究77
3.3CRF模块
条件随机场是一种概率无向图模型[23],同时是序列标注任务中较为常见的一种算法,可以用于实体类别的标注。本文将CRF层作为神经网络结构的最后一层,对BLSTM模块输出的结果进行处理,获得最优的全局最优标签序列%
对于一个给定的文本,用M=(R1,R2,R3…R o)表示输入句子,用y=
(y,y2,y3…y o)表不输出标签序列,那么该标签序列得分为
表1BIO标注策略
实体标记开始标记中间标记时间B-TIME I-TIME
人名B-NAME I-NAME
地点
B-L0C I-L0C 朝代B-DYN I-DYN 非实体标记00
使用BIO标注策略对给定的辽代历史文化文本进行实体标注示例见表2%
S(M,y)="A y c,y+1+"P cy c,⑺
=0=1
式中:A转移分数矩阵;A订表不从标签i转移到标签J的分数。
对所有可能的序列路径进行归一化处理,产生输出序列y的概率分布,如
P#yb M)
e S(
"G%S m B S(“%
⑻
表2历史文化文本命名实体标注示例
原文标记序列
耶B-NAME
律I-NAME
璟I-NAME
夺0
皇00
位-
在训练过程中,最大化关于正确标签序列的对数如
log(P(y*|M))S(M,y*)-Hg#"e S(M,y))%#9)y%农
式中,S是对于输入句子X的所有可能标签序列%
在最终进行解码时,选择预测总分最高的序列作优序列,式
本实验采用准确率P#Precision)、R #Recall)以及F1值对模型进行评价%式如下:
P tp
T+fp P1000;#11)
R
tp T+fn(
100%;#12) A1=P:R R100%%#13)
#10) 4实验及结果分析
4.1实验数据准备
由于目前网上公开的数据集中缺乏关于辽代历史文化的相关数据,因此本文使用的数据集由10万字左右的辽代历史文化相关文本构成%通过爬虫获取网上相关文本数据,然后将获取的语料已经进行分词、去停用词等处理,对语料进行了人名、地名、时间、朝代等信息进行了实体标注%监督学习方式的主要标注模型包括BIO、BIEO&BMES0等,为了能够清楚的表示语料中待识别的命名实体,本文在自建数据集采用BIO标记法进行标注%对于每个实体,将其第一个字标记为“B-#实体名称)”冲间字标记为“I-(实体名称)”,对于非实体标记为“0”,见表1%其中TP表示被判定为正样本,实际预测也为正样本,即判断为正例的正确率;TN表示判定为负样本,实际预测也为负样本,即被正确预测的负例; FP表示判定为正样本,实际预测为负样本,即把负样本判断成了正样本的误报率;FN表示判定为负样本,实际预测也为正样本,即把正样本判断成样本的%
4.3#实验
所有实验采用的环境见表3%
表3实验环境
项目环境
操作系统Ubuntu16-04
GPU NAVIDID Quads K1-00
硬盘500G
内存8G
Python版本
3.6
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论