基于HanLP的档案智能检索系统研发与应用
作者:李宝玲 郭立鑫 李珂
来源:《档案管理》2020年第06期
摘 要:河南省数字档案馆选型HanLP工具包,采用NLP、OCR、全文检索等技术,开发档案智能检索系统,探索档案数据智能挖掘、智能关联、智能检索、智能学习的途径,对
档案利用智慧检索模式进行了有益初探。
关键词:智能检索;HanLP工具;数据管理
Abstract: HanLP tool kit was selected in henan digital archives, and NLP technology, OCR technology, full-text retrieval and other technologies were adopted to explore the ways of intelligent mining, intelligent classification, intelligent retrieval and intelligent learning of archival data, develop the intelligent retrieval system of archives, and makes a beneficial exploration on the intelligent retrieval mode of archives utilization.
Keywords: Intelligent retrieval; HanLP tool kit; Data managementjs导航栏下拉菜单
1 开发背景
1.1 数字档案馆向智慧档案馆的转型发展。智慧档案馆是数字档案馆发展的新阶段。理论界这几年很多关注于智慧城市背景下数字档案馆或智慧档案馆的研究,实践层面上青岛市档案馆开始了智慧档案馆建设的探索。[1]
河南省数字档案馆智能检索系统(简称“系统”)作为档案数据应用层面的初探,将NLP技术应用于档案数据和知识管理,旨在提高档案现代化管理和智能服务水平。
1.2 海量数字档案资源知识管理的需要。随着档案数量的增多,历史存量档案数字化率逐步提升,增量电子档案比例连年提升,条目加全文关联对应的传统检索模式,已不能满足从海量档案中快速、有效、精准地获取信息,如何充分挖掘档案数据、汇聚关联信息,让档案检索功能更加人性化,做到档案数据专题汇总、实时统计和智能分析,这对档案检索系统而言是一个新课题。[2]
河南省数字档案馆馆藏丰富,档案内容所涉及到的人物、地点、时间、建筑、事件等档案元素交叉重叠,如何以这些元素为切入点,在海量结构化和非结构化数据中,将有意义的档案元素挖掘出来,以准确有效的关联形式表达,组成完整的知识体系,这是探索智能检索系统的价值所在。[3]
2 系统设计
2.1 技术路线
2.1.1 CES Coral框架。CES Coral是基于J2EE开发且具有自主知识产权的框架,采用Spring、Struts和hibernate开发技术,并集成公司强大的基础组件库产品,完全符合MVC开发模式的要求。表示层和控制层采用Struts,数据持久层采用hibernate。整个架构的整合以及事务处理主要采用Spring Framework,适合档案系统开发。
CES Coral架构既包括逻辑层组件,也包括表示层组件,组件兼容目前主流浏览器,其应用可以大大提高档案搜索系统的性能和稳定性,并减少后期维护工作量。
系統中,用户通过操作检索前台界面发送请求到检索后台,由后台总控制器分析请求并到具体的控制层类以及方法,然后由控制层方法执行相应的操作,并调用服务层进行业务处理。服务层完成业务处理后,将结果推送给控制层进行判断。根据判断结果,控制层将结果返回给请求端,即用户浏览器进行视图展示。
2.1.2 HanLP工具包。HanLP是由一系列模型与算法组成的NLP工具包,具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
本系统在HanLP的基础上,结合河南省地名信息、人名信息、本馆制定的同义词库、
近义词库以及本馆常用的档案词语形成基础词库,为后续中文分词和词组提取制定规则依据;基于HanLP工具包进行档案业务的工具制定,实现更贴近档案应用的语言处理工具集合。
系统以河南省档案馆海量馆藏数字档案和资料为数据来源,通过数据同步的方式将数据放入到智能检索数据池,供智能检索系统分析应用。
系统根据设定的检索模型(因果、条件、并列、转折等)以及设定的智能检索规则进行模型数据的填充;[4]按照关键词、词频、权重,按照时间、地点、人员、建筑、事件五个维度在各档案、资料之间进行语法、语义等关联关系的创建,形成本系统核心的数据模型图谱。上述工作均由系统后台执行,创建检索模型、数据模型图谱、知识图谱、标注拼音,形成各档案、资料之间的关联关系。
2.1.3 全文检索技术。全文检索技术最显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索。
检索过程分为索引、搜索两个过程,可以高效地管理档案资源海量非结构化数据。
系统采用 Sorl全文检索软件,基于系统后台创建的各种智能检索模型和语法、语义关系,提供基本检索、拼音检索、同义词检索、联想检索、模型检索、热点排行、检索结果的图谱化展示,保证检索结果的准确性、全面性和智慧性。
2.1.4 OCR技术。OCR技术是指针对印刷体字符,采用光学方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。本系统通过OCR工具对单层PDF文件进行文字抽取,并形成独立的文本文件,为全文检索提供条件。
2.1.5 LoadRunner工具。LoadRunner是一款优秀的预测系统行为和性能的负载测试工具,它能够對智能搜索架构进行测试,预测检索系统行为并评估系统相关性能指标,可以作为评估检索系统性能的首选工具。
在系统性能测试中,使用该性能测试工具对系统进行登录脚本录制、测试回放、场景设置,运行脚本和跟踪记录并通过Analysis组件帮助分析系统性能。
2.1.6 主流前端展示框架。为方便系统良好的操作性及可视化的呈现结果,系统使用了Bootstrap、Echarts和PDF.js。
Bootstrap框架是受欢迎的 HTML、CSS 和 JS 框架,用于开发响应式布局、移动设备优先的前端工具集,具有易用、优雅、灵活、可扩展、兼容性好的特点。本系统的页面布局使用了Bootstrap框架,整体样式基于该框架进行前端开发,从导航栏、菜单栏、数据区进行友好设计开发,操作方便、友好易用。
ECharts是一个使用 JavaScript 实现的开源可视化库,涵盖各行业图表,满足各种需求。本系统中各种图标展示、知识图谱、关联关系等基于ECharts进行二次开发,展示美观、清晰易懂。
PDF.js用于PDF格式全文的预览,提供全屏展示、旋转、滚动、不同浏览模式、打印、下载等功能,可实现对大文件的即时阅读。本系统中对于PDF全文的浏览均使用PDF.js,阅读快速、使用方便。
2.2 流程设计
2.2.1 智能模型制作。智能模型主要进行词性管理、词库管理、分类管理和检索模式定义。词性管理指定义各种系统应用的词性,包括名词、动词、形容词、连词、叹词、特殊词性,每个词性又根据实际区分不同的种类。
词库管理指根据收集的数据进行初始化并提取关键词,包括河南地名库、人名库、同义词库和其他扩展词库等。
分类管理指根据中华人民共和国档案分类表及河南本地特殊要求的分类要求,制定分类方案。
检索模式定义指根据不同逻辑关系搭建关联关系,包括因果关系、条件关系、并列关系、转折关系,挖掘档案数据内在关联。
2.2.2 数据收集准备。数据收集准备主要进行基础配置、学习材料制作、数据收集工作。
该系统已收集3242805条目录数据、 1652107条全文数据,总量约8T,并全部完成TXT抽取、中文分词、关键词提取、标注拼音及简写,形成包含4174045个词组或短语的基础词库、包含62003个词语的同义词库,以及河南基础地名库、人名库、关键词库等,同时按照档案分类法对数字档案进行分类,共设置20个大类,已初步搭建具有河南特的档案馆档案数据模型。
2.2.3 档案数据处理。主要进行数据自动获取、自动分类、权重计算、语义关联、索引创建。
数据自动获取指采取自动或手动模式对馆藏档案、现行文件、资料库数据自动抽取并分词,提取关键字、频次、标注拼音及简写。
自动分类指采取自动或手动模式依据制订的分类方案将馆藏档案、现行文件、资料数据进行分类。
权重计算指利用算法自动计算各词组及短语的权重、频次、距离及关联关系等。
语义关联指自动根据模型计算词组或短语间的语义关系进行关联。
索引创建指根据检索模式定义,形成检索规则,自动创建索引。
2.2.4 检索利用开发。索引自动创建后,形成索引表,可以有效加快搜索速度,提高结果相关性。
索引表中含有档案数据组的子数据组,搜索从该索引表开始,一旦表中某项匹配上,
则搜索继续在有序档案数据组中进行。
依托于自然语言处理技术和全文搜索技术,检索利用上开发了包括基本检索、拼音检索、同义词检索、模型检索、知识图谱、热点排行在内的具体检索场景,方便用户多元性检索需求。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论