辽代历史文化资源知识图谱构建研究--688IT编程网

第23卷第1期2021年1月

Vol.23,No.1

0anuaey2021大连民族大学％报

Journal of Dalian Minzu University

文章编号：2096-1383(2021)01-0073-08

辽代历史文化资源知识图谱构建研究

刘爽，谭楠楠，杨辉

(大连民族大学计算机科学与工程学院，辽宁大连116650)

摘要：目前网络上关于辽代历史信息化智能查询服务系统资源相对缺乏，关于辽代历史介绍文本篇幅冗长，不方便大众进行阅读观看。为了便于大众能更加快速准确了解相关的辽代历史知识，基于百度百科、搜狗百科以及基于爬虫技术等形式获取了与辽代历史相关的文本数据，采用B-STM-CRF模型进行实体抽取，通过关系抽取模型抽取实体间的关系，通过知识融合等技术对得到的数据进行实体对齐以及本体构建。最终构建辽代历史文化领域知识图谱，并在此知识图谱的基础上开发了可视化查询系统％

关键词：辽代历史文化；知识图谱；知识抽取；命名实体识别

中图分类号:TP391.1文献标志码:A

Research on the Construction of Knowlenge Graph of Historical and

Culteral Resources of the Liao Dynasty

LIU Shuang，TAN Nan-nan，YANG Huc

(School of Computer Science and Enaineeyna，Dalian Minzu University，Dalian Liaoning116650，China)

Abstrach:It is found that the resourcee of the intelligent ques semice system about the histoDcal information of the Liao Dynasty on the Internet are mlatively lacking-At the same time，the tete on the Internet about the histos of the Liao Dynasty are relatively lengthy and inconvenient far the public St read-In order St facilitate the public St understand the relevent histoDcal knowledge of the Liao Dynasty more quickly and accurately，thie study first obtains text data related to the histos of the Liao Dynasty based on Baidu Encyclopedia，Sogou Encyclopedia，and crawler technology.Net,the BiLSTM一CRF model is used for entity extraction，and the relationship between entities is extracted through the relationship extraction m odel-Then，entity alignment and ontology construction are peyormed on the obtained data through knowledge fusion technology.Fin—y,a knowledge graph of the histos and culture of the Liao Dynasty is constru

cted，and a visual ques system L developed on the basis of thm knowledge graph.

Key wo U s:histos—d cultus of the Liao Dynasty;knowledge graph；knowledge extraction；

named entity recognition

随着语义网的发展，目前互联网上发布越来越多的结构化数据、半结构化数据、非结构化数据，并将其作为链接数据发布。在此背景下, Google在2012年提出知识图谱(Knowledge Graph)这一概念，旨在改善搜索引擎效果[1]%知识图谱以结构化三元组的形式来进行存储，基本组成单位由头实体、尾实体以及描述这两实体之间的关系组成。通用表示方式为G=(E,R,S)，其中E={B],e2,e3…,e|E表示实体集合，R= {4,42,r3…,4|R}表不关系集合,S+E(R(E 表示知识图谱中的三元组集合。目前对知识图谱的研究应用主要分为通用领域知识图谱和垂直领

收稿日期：2020-10-05；最后修回日期：2020-11-03

基金项目：辽宁省经济社会发展研究课题(2021aabkt-022) %

作者简介：刘爽(1977-)，女，满族，辽宁锦州人，副教授，博士，主要从事知识图谱、智能信息处理研究

74大连民族大学学报第23卷

域知识图谱。典型的中文通用领域知识图谱有CN-DBpedia(2)&(3)、Ownthink⑷、XLore［5】等。上述通用领域知识图谱虽收集了大量的领域知识，但无法深入对某一领域内的知识进行详细描述。垂直领域知识图谱在这方面的优势大于通用领域知识图谱，但是该领域知识图谱构建通常采用手工构建，需要消耗大量的人力财力。

正则匹配到第一个关键字就停止

经过调查发现，现有通用领域知识图谱中含有部分关于辽代历史文化资源相关的内容，但是现有知识图谱从规模化、规范化、形式化等方面任有很大的提升空间目前垂直领域中关于辽代历史文化资源的知识图谱还没有，如何基于高效的知识工程方法以及先进的文本数据挖掘技术，构建大规模、高质量的辽代历史知识图谱，仍是极具挑战性的课题。

本文初步探讨了辽代历史领域知识图谱当前面临的机遇和挑战，从新的领域知识图谱角度提出了辽代历史领域知识图谱构建技术。针对辽代历史领域的特点对知识各个环节的关键技术流程进行专项研究，利用自然语言处理、文本数据挖掘技术和知识抽取、知识融合等知识图谱构建技术，采用人机结合的方式构建了辽代历史文化资源知识图谱。

1相关研究

命名实体识别(Named Entity Recognition, NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别［7］%目前命名实体识别的主要技术方法分为：基于规则和词典的方法、基于统计的方法、基于神经网络的方法等。其中基于规则的方法多采用语言学专家手工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、中心词等方法，以模式和字符串相匹配为主要手段，这类系统大多依赖于知识库和词典的建立%基于统计机器学习方法将NER视作序列标注任务，

利用大规模语料来学习出标注模型，从而对句子的各个位置进行标注。常用的方法主要包括：隐马尔可夫模型［8］(HMM)、最大爛⑼#ME)&支持向量机(10)(SVM)、条件随机场(11)(CRF)%基于神经网络的方法在硬件能力的发展以及词的分布式表示(word embedding)的出现，成为可以有效处理许多NLP任务的模型％其中主要模型有CNN-CRF、RNN-CRF、LSTM-CRF等％

随着互联网技术的高速发展，人们在对通用领域数据进行实体抽取的同时开始关注垂直领域的实体抽取，然而垂直领域的数据文本有其自身的特点，进行实体抽取时需考虑其自身特点［12］%在命名实体识别的工作中，主要分为基于规则的、基计机器学的和基

网络的方法％其中常见的基于统计机器学习的模主要有马、大、支持向

机和条件随机场等％然而，这些方法在进行特征提取时需要人工进行完成％同时在模型训练方面需要大量的人工标注样本，并且效果不明显［13］%基于神经网络的方法在命名实体识别任务中通常被当作序列标注任务，通过建立序列标注模型对文本进行实体识别％2011年CoXobeT14］等采用卷(CNN)进行提，同通

过融合其他特征效果上取得不错的识别效果％丁晟春［15〕等人针对网络公开平台上的多源异构的企业数据的散乱、无序、碎片化问题，提出Bt-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作％何春辉［16］等人利用电子文档在糖尿病领域中取得了较好的应用，实验结果表该在包含15实类的数据集上

率达到了89.14%。李永苗(17)利用BiLSTM网络对中文电子病历中的实体进行提取，构建出了中文电子病历知识图谱％Feng18〕等提出了一种基BoLSTM的结构的名实%买买提阿依甫［19〕等人根据维吾尔语的特点，提出了BiLSTM-CNN-CRF模型％李丽双［20〕等人将CNN-BiLSTM-CRF模型应用在生物医学语料上，获得了当时最高F1值％柳润杰［21］通过使用BiLSTM-CRF模型将《二十四史》中的人名、地名、时间等实体识别后，在此基础上构建了《二十四史》知识图谱％

本文在进行辽代历史文化实体识别中将使用BiLSTM-CRF的深度神经网络模型％首先将输入的词由one-hot向量映射为低维稠密的字向量(chaeacieeembeddony)，将的向序列作为输入传入到BiLSTM神经网络模型中进行实体识别，然后CRF模型将会对BiLSTM模型输出的结果进行解码操作，得到一个最优标记序列，最的实信%

第1期刘爽，等：辽代历史文化资源知识图谱构建研究75

2辽代历史文化知识图谱整体构建方案

目前

辽代文化图谱还未

％

因此本文定辽代文化图谱工程构建

研究，旨在介绍我的辽代文化图

谱，其构过程主要包括本体构建、

、知

融合等步骤％本体定义了辽代

图谱构建中

要的实系类型％基本体对结构化数

据、非结构化数据进行处理储于Neo4j 图数

据库中。辽代

图谱构建流程图如图1 %

在辽代文化图谱的构建过程中，本

文中图谱构

有数据类型包括结构化数

据、半结构化数据和非结构化数据，其中结构化数

据上通用百科图谱中的数据，

本文中所有的通用图谱为Ownthink I CN-DBpedia ；半结构化数据主要百度百科、互动百科，针对半结构化数据通过使用包装器来

进行获取，其中包装器的生成有三大类：手

、包器

和自动％本文主要使用手

，通过人工分析构建包装器信息的规则，以

获中的半结构化数据；针对非结构化数据互上辽代相数据，通过使用技术进行获取大

的辽代

文本数据，在将获得的网文本数据进行处理％处理过程主要通过迭

代的方式逐步扩大

则％辽代的非结构

化数据主要包括文章、史料籍等，适合采用

基于深度学习的有监

％

通过上述技术手段大大的提升了辽代知

图谱构建的自动化程度％但作个辽代

图谱，不仅要构建图谱信真实性

和

性，还要

的充分性％针对后

，

充分利用现有

库中

辽代信息对

进行补充，通过有

库中与辽代 .

相关的三元组信

充实本文中使用构建的

图谱，以

有足够多的数据量％

在数据处理过程中，充分使用中文分词工具 jieba 分词、正则表达式；在

过程中通过命

名实、关系获取文本数据中的实体和关系，在进行命名实体部分本文采用BiLSTM -

CRF ：

进行

非结构化文本数据

中的实体；在系过程中，使用上集成的

系 DeepDivv 进行

文本的实体与实的关系，从构

图谱要的三

组数据％在和数据整合完成后，在对

不同

的同一实体进行对齐、合并的操作，最后

获得质

高的三元组数据，通过LOAD 存

Neo4j 数据库。

知识困谱

知识融合

__________________ I ---------------------------------- I

属性校正

实体提取

关系提取

属性提取

知识抽取

半结构化敎据非结构化数据

实体对齐知识表示第三方数据库

本体构建

结构化数据数据整合

质量评估知识更新

图1辽代历史文化知识图谱构建流程

3辽代历史文化知识抽取

3.1

本文的BiLSTM - CRF 模型框架如图2% B oLSTM - CRF 三分组成: 第分

层，第二部分，第三部分是标注层％其过程

如下：首先将输入的词由one - hot 向量映射为低

维稠密的字向量，然后将得到的字向量序列作为

输入传入到BiLSTM 神经网络模型中进行实体识

别，最后CRF 模型将会对BiLSTM 模型输出的结

果进行解码操作，得到一个最优标记序列％

76大连民族大学学报第23卷

3.2BiLSTM

循(RNN)中一类重要的结构，从理论上来说,RNN可以动态的捕获序列数据信息，但是在实际使用过程中梯度消失和梯度爆问题，长短期记忆［22］(LSTM)可以的解类问题。对名实说，要的实体句子分布：不同，其文本中的上下文信息的重要程度也不同%为了更好的利用上下文中的信息，本文采用双向LSTM结构进行模型训练％

3.2.1LSTM

LSTM是RNN的变体，旨在解决这些梯度消失的问题％基本上，一个LSTM三个乘法组成，这些控制信息遗忘和传递给下一时间步骤的信息比例％这些门控(Input Gatv)、遗忘［(Forget Gaiv)、输出门(Output

其LSTM单元在t时刻更新公式如下:

&=&(1+C r+T)，(1)

L=&(,"t_1+C%+T)，(2)

0=+C%+T)，(3)

0=力。018iQ0，⑷

：=&(兀h*1+C r+T)，(5)

h t=o,Qtanh(q)%(6)式中：，丿为遗；0为新记忆；

o为最终记忆；o；h*；&表示si.g：oi.d激数；tanh表双曲正切激活数；Q表不对应兀素；，、乃、，八，表不的权重矩阵；表示偏差向量％3.2.2BiLSTM

在使用LSTM后将会得到与句子长度相同的隐层状态序列［h1，h2，…,h”］；本文中使用的BiLSTM网络，在t时刻将会得到前向和后向2个方向的状态序列［得，得，…，得］和［K，K，

…，h/n］，成的状态序列

得向前和向隐层状态序列拼接生成，即h=［得：/%BiL-STM单元的基本结构如图4%

图4BiLSTM

网络结构图

第1期刘爽，等：辽代历史文化资源知识图谱构建研究77

3.3CRF模块

条件随机场是一种概率无向图模型［23］，同时是序列标注任务中较为常见的一种算法，可以用于实体类别的标注。本文将CRF层作为神经网络结构的最后一层，对BLSTM模块输出的结果进行处理，获得最优的全局最优标签序列％

对于一个给定的文本，用M=（R1,R2,R3…R o）表示输入句子，用y=

（y，y2，y3…y o）表不输出标签序列，那么该标签序列得分为

表1BIO标注策略

实体标记开始标记中间标记时间B-TIME I-TIME

人名B-NAME I-NAME

地点

B-L0C I-L0C 朝代B-DYN I-DYN 非实体标记00

使用BIO标注策略对给定的辽代历史文化文本进行实体标注示例见表2%

S（M，y）="A y c，y+1+"P cy c，⑺

=0=1

式中:A转移分数矩阵；A订表不从标签i转移到标签J的分数。

对所有可能的序列路径进行归一化处理，产生输出序列y的概率分布，如

P#yb M)

e S(

"G%S m B S(“%

⑻

表2历史文化文本命名实体标注示例

原文标记序列

耶B-NAME

律I-NAME

璟I-NAME

夺0

皇00

位-

在训练过程中，最大化关于正确标签序列的对数如

log(P(y*|M))S(M,y*)-Hg#"e S（M，y））%#9）y%农

式中，S是对于输入句子X的所有可能标签序列%

在最终进行解码时，选择预测总分最高的序列作优序列，式

本实验采用准确率P#Precision）、R #Recall）以及F1值对模型进行评价％式如下：

P tp

T+fp P1000；#11)

tp T+fn(

100%；#12) A1=P:R R100%%#13)

#10) 4实验及结果分析

4.1实验数据准备

由于目前网上公开的数据集中缺乏关于辽代历史文化的相关数据，因此本文使用的数据集由10万字左右的辽代历史文化相关文本构成％通过爬虫获取网上相关文本数据，然后将获取的语料已经进行分词、去停用词等处理，对语料进行了人名、地名、时间、朝代等信息进行了实体标注％监督学习方式的主要标注模型包括BIO、BIEO&BMES0等，为了能够清楚的表示语料中待识别的命名实体，本文在自建数据集采用BIO标记法进行标注％对于每个实体，将其第一个字标记为“B-#实体名称）”冲间字标记为“I-（实体名称）”，对于非实体标记为“0”，见表1%其中TP表示被判定为正样本，实际预测也为正样本，即判断为正例的正确率;TN表示判定为负样本，实际预测也为负样本，即被正确预测的负例; FP表示判定为正样本，实际预测为负样本，即把负样本判断成了正样本的误报率;FN表示判定为负样本，实际预测也为正样本，即把正样本判断成样本的%

4.3#实验

所有实验采用的环境见表3%

表3实验环境

项目环境

操作系统Ubuntu16-04

GPU NAVIDID Quads K1-00

硬盘500G

内存8G

Python版本

3.6

688IT编程网

辽代历史文化资源知识图谱构建研究

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

辽代历史文化资源知识图谱构建研究

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式