SOFTWARE 软  件2020
第41卷 第11期2020年
Vol. 41, No.11
0 概述
公文是党政机关中常见的工作文体,承载着政府各
机关间,政府与众间消息沟通和传递的重要任务,一旦出现错误,会对社会生活造成比较严重地影响。因此,确保公文的正确性,做到万无一失有着重要的意义。
目前,通常基于人工校对来检查公文的正确性,需
要校对人员具有丰富的公文写作经验,校对门槛高,从业人员不足,是一件费时,费力的工作。当存在大量的
公文校对任务时往往无法及时应对,容易造成公文的错误。因此,研究公文的自动校对系统有着重要的意义。
目前的自动校对研究,主要基于统计模型和普通文
本,对公文这种文体的适应性不强。Hsieh 等人[1]使用了两套系统检测文本错误。系统一首先检测不认识的
词,然后利用语言模型进行验证。系统二基于混淆词典中推荐词典检测错误。He 等人[2]将错误分为字符级别
的错误、词级别的错误和上下文级别的错误,针对不同
错误设计有针对性系统。Yang 等人[3]提出改进候选的检测方法,利用高可信度模式匹配器,提高了匹配准确度。Yeh 等人[4]提出了基于词典的拼写错误检测方法,他们生成了包含每一个汉字的音近字和形近字混淆词典,用来生成检测候选集。
商业应用方面,黑马校对占据了国内的主要市场[5],
在校对效果上取得了良好的效果,黑马校对主要采用规则库技术,利用内置的大型规则库和专业库进行文本匹配。但语言错误存在各种复杂情况,单纯采用规则库很对复杂情况进行定义;规则库的匹配比较固定,无法满
足语言的快速更新;规则库的维护需要大量人力成本,更新规则库费时费力。
因此,我们引入深度学习技术,通过对上下文自动
建模,自动提取文本间蕴含的内在规律。克服了规则库
作者简介:张卓(1986―),男,北京人,工程硕士,工程师,研究方向:信息服务、信息安全。
基于深度学习的公文自动校对系统
张卓
(中共中央宣传部机关服务中心(信息中心),北京  100806)
摘 要:针对公文校对费时费力、校对人员不足的问题,本文基于深度学习技术提出了公文自动校对系统,用于辅助公文
正则匹配关键词
校对工作。该系统由公文预处理模块,自动查错模块和自动纠错模块三部分组成,分别实现了公文预处理,错误检查和错误纠正功能。该系统能自动检查公文错误并给出错误说明,必将提高校对人员的工作效率,减轻校对工作负担。
关键词:自动校对;自动纠错;神经网络中图分类号:TP391.41
文献标识码:A
DOI :10.3969/j.issn.1003-6970.2020.11.027
本文著录格式:张卓.基于深度学习的公文自动校对系统[J].软件,2020,41(11):94-96+105
Automatic Proofreading System for Offi cial Documents Based on Deep Learning
ZHANG Zhuo
(Service Center(Information Center) of the Propaganda Department of the CPC Central Committee, Beijing  100806)【Abstract】:Aiming at the problem of time-consuming and laborious document proofreading and insuffi  cient
proofreaders, this paper proposes an automatic proofreading system for offi  cial documents based on deep learning technology to assist this job. The system is composed of three parts: official document preprocessing module, automatic error checking module and automatic error correction module, which respectively realize the functions of official document preprocessing, error checking and error correction. The system can automatically check
for errors in offi  cial documents and give error instructions, which will defi nitely improve the work effi  ciency of proofreaders and reduce the burden of proofreading.
【Key words】:automatic proofreading;automatic error correction;neural network
设计研究与应用
张卓:基于深度学习的公文自动校对系统
技术存在的定义难、匹配不灵活,更新成本高的问题,帮助提高校对人员工作效率,降低工作人员的劳动强度。
1公文的常见错误
常见文本错误有如下几种:
如表1所示,公文中的错误可以分为浅层错误和深层错误:
浅层错误可以通过规则,利用正则表达式匹配等方式予以检查。例如:“数字表述”错误,即表示数量、
理工作。针对输入的待检查文本,首先对文本就行编码转换,统一文本编码,将全角字符等统一转换为半角,避免由于编码等原因带来的文本乱码;接下来对文本按照句子进行分割,将文本分割为句子,并记录分割位置。第二部分:自动查错模块,该模块由神经网络错误检查和规则错误检查两部分组成。其中,神经网络错误检查以Bi-LSTM为基础,结合上下文信息,对输入文本序列进行分析,识别错误位置;规则错误检查模块,
数字表述不当十米表示数量、长度、高度、面积、体积、重量和百分
比等,一般使用阿拉伯数字
深层错误同音字错误人,任由于拼音输入法造成形近字错误太,大OCR识别造成
软 件
第41卷 第11期SOFTWARE 分布。
图2 神经网络查错功能示意图Fig.2 Schematic diagram of neural network error
checking function
以“建立由法质部门牵头”为例,该句中“质”与“制”属于同音字错误。通过规则的方法难以发现,属于深层错误。本文将“建
立由法质部门牵头”输入模型,输入首先经过词嵌入层,将文字符号转化为分布式词表示向量;接下来,将该向量输入LSTM层,利用LSTM对上文的记忆能力,学习上下文表示,并输出编码后的向量表示,该表示进一步经过CRF层,进行序列标注,从而完成自动的查错功能。字。基本纠错框架,如图3所示。
图3 神经网络错误纠正
Fig.3 Neural network error correction
输入错误文本“从法治到法制”,通过首先在架构的编码器部分进行编码,以压缩特征的方式进入解码器,解码器对针对压缩特征集合上下文(法治的前提是法制)进行解码,根据不同语义输出正确文本“从法制
······下转第���页
[5] 吴涓,曹效英,宋爱国,等.Matlab在腕力传感器系统标定中的应用[J].传感技术学报,2001,14(3):177-182. [6] 肖汶斌,董文才.六维力传感器静态解耦方法[J].海军工程大学学报,2012,51.
[7] 茅晨,宋爱国,高翔,等.六维力/力矩传感器静态解耦算法的研究与应用[J].传感技术学报,2015(2):205-210. [8] 徐菲.用于检测三维力的柔性触觉传感器结构及解耦方法研究[D].合肥:中国科学技术大学,2011.
touch[J].Advanced Materials,2014,26(17):2610. [13] Huang Y,Yuan H,Kan W,et al.A flexible three-axial capacitive tactile sensor with multilayered dielectric for artifi cial skin applications[J].Microsystem Technologies,2017,23(6):1-6.
[14] 费业泰.误差理论与数据处理[M].北京:机械工业出版社,2004.
[15] 韩庆,魏来生,贺力朋.履带板三维力解耦算法研究[J].车辆
崔劲  高震  彭博:三维力传感器静态解耦算法研究

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。