专利名称:基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统
专利类型:发明专利
发明人:屈丹,杨绪魁,张文林,司念文,陈琦,牛铜,闫红刚,张连海,李真
申请号:CN201911241042.3
申请日:20191206
公开号:CN111090981B
公开日:
20220415
专利内容由知识产权出版社提供
摘要:本发明属于自然语言处理技术领域,公开一种基于双向长短时记忆网络的中文文本自动断句与标点生成模型构建方法及系统,该方法包括:将中文文本语料进行处理,去除无用符号,同时为每个字符添加设计好的标签;利用双向长短时记忆网络作为中文文本自动断句与标点生成模型的基准网络结构;采用对数似然损失函数,通过加入长句惩罚因子对对数似然损失函数进行改进,以最小化改进后的对数似然损失函数为目标,从正反两个方向对添加标签后的中文文本语料进行训练,完成中文文本自动断句与标点生成模型构建;该系统包括:语料处理模块、网络结构选择模块及模型构建与优化模块。本发明解决了语音转写文本中,无法自动断句以及标点符号缺失的问题。
申请人:中国人民解放军战略支援部队信息工程大学,郑州信大先进技术研究院
地址:450000 河南省郑州市高新区科学大道62号
国籍:CN字符串长度头文件
代理机构:郑州大通专利商标代理有限公司
代理人:张立强
更多信息请下载全文后查看

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。