文本正则化模型训练方法和装置、文本正则化方法和装置--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 107680579 A (43)申请公布日 2018.02.09

(21)申请号 CN201710912134.4

(22)申请日 2017.09.29

(71)申请人百度在线网络技术(北京)有限公司

地址 100085 北京市海淀区上地十街10号百度大厦三层

(72)发明人陈汉英

(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司

代理人王达佐

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

文本正则化模型训练方法和装置、文本正则化方法和装置

(57)摘要

本申请公开了文本正则化模型训练方法和装置、文本正则化方法和装置。该模型训练方法的一具体实施方式包括：将输入文本对应的输入字符序列中的输入字符依次输入文本正则化模型对应的循环神经网络中，其中输入文本对应的输入字符序列按照如下方式生成：按照第一预设粒度对输入文本进行分割得到第一分割结果；将第一分割结果中的具有至少两种正则化结果的非汉字字符进行标签化处理；基于循环神经网络对各输入字符进行分类，得到输入字符序列的预测分类结果；根据输入字符序列的预测分类结果与输入文本的正则化文本的标注分类结果之间的差异，对神经网络的参数进行调整；该实施方式实现了文本正则化模型的自动化训练，提升了文本正则化模型的灵活性。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种文本正则化模型训练方法,其特征在于,所述方法包括:

将输入文本对应的输入字符序列中的输入字符依次输入待生成的文本正则化模型对应的循环神经网络中;

基于所述循环神经网络对各所述输入字符进行分类,得到所述输入字符序列的预测分类结果;

根据所述输入字符序列的预测分类结果与所述输入文本的正则化文本的标注分类结果之间的差异,对所述循环神经网络的参数进行调整;

其中,所述输入文本对应的输入字符序列是按照如下方式生成的:

按照第一预设粒度对所述输入文本进行分割得到第一分割结果;

将所述第一分割结果中的具有至少两种正则化结果的非汉字字符进行标签化处理,得到所述输入字符序列。

2.根据权利要求1所述的方法,其特征在于,所述第一分割结果中的具有至少两种正则化结果的非汉字字符包括以下至少一项:具有至少两种正则化结果的符号字符、具有至少两种正则化结果的连续数字字符、具有至少两种正则化结果的字母字符;

所述第一分割结果中的具有至少两种正则化结果的非汉字字符是按照如下方式进行标签化处理的:

将所述第一分割结果中的具有至少两种正则化结果的符号字符替换为所述符号字符的读音类型标签,将所述第一分割结果中的具有至少两种正则化结果的连续数字字符替换为与所述连续数字字符的语义类型对应且包含所述连续数字字符的长度信息的标签,将所述第一分割结果中具有至少两种正则化结果的字母字符替换为与所述字母字符的语义类型对应的标签。

3.根据权利要求1所述的方法,其特征在于,所述输入字符序列的预测分类结果包括所述输入字

符序列中各所述输入字符的预测类别信息;

所述输入文本的正则化文本的标注分类结果包括与所述输入文本的正则化文本对应的目标字符序列中各目标字符的已标注类别信息。

4.根据权利要求3所述的方法,其特征在于,所述输入文本的正则化文本的标注分类结果按照如下方式生成:

将所述输入文本的正则化文本按照第二预设粒度进行分割,得到第二分割结果,所述第二分割结果包括以下至少一项:与所述输入文本中的单个汉字字符对应的单个汉字字符、与所述输入文本中的连续数字字符对应的第一汉字字符串、与所述输入文本中的符号字符对应的第二汉字字符串或符号字符、以及与所述输入文本中的字母字符对应的第三汉字字符串或字母字符;

将所述第二分割结果中的与所述输入文本中的单个汉字字符对应的单个汉字字符、与所述输入文本中的符号字符对应的符号字符、以及与所述输入文本中的字母字符对应的字母字符替换为第一预设类别标识;

将所述第二分割结果中的与所述输入文本中的连续数字字符对应的第一汉字字符串替换为用

于标识所述输入文本中对应的连续数字字符的语义类型的第一语义类别标识;

正则化工具包

将所述第二分割结果中的与所述输入文本中的符号字符对应的第二汉字字符串替换为用于标识所述输入文本中对应的符号字符的语义类型的第二语义类别标识;

将与所述输入文本中的字母字符对应的第三汉字字符串替换为用于标识所述输入文本中对应的字母字符的语义类型的第三语义类别标识。

5.一种文本正则化方法,其特征在于,所述方法包括:

获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的具有至少两种正则化结果的非汉字字符进行标签化处理得到的待处理字符序列;

将所述待处理字符序列输入已训练的文本正则化模型,得到输出类别标识序列;

基于所述待处理字符序列对所述输出类别标识序列中的输出类别标识进行转换,得到各所述输出类别标识对应的输出字符,并按顺序组合各所述输出字符,得到所述待处理文本的正则化文本;

其中,所述文本正则化模型基于如权利要求1-4任一项所述的方法训练。

6.根据权利要求5所述的方法,其特征在于,所述分割结果中的具有至少两种正则化结果的非汉字字符包括以下至少一项:具有至少两种正则化结果的符号字符、具有至少两种正则化结果的连续数字字符、具有至少两种正则化结果的字母字符;

所述分割结果中的具有至少两种正则化结果的非汉字字符是按照如下方式进行标签化处理的:

将所述分割结果中的具有至少两种正则化结果的符号字符替换为所述符号字符的读音类型标签,将所述分割结果中的具有至少两种正则化结果的连续数字字符替换为与所述连续数字字符的语义类型对应且包含所述连续数字字符的长度信息的标签,将所述分割结果中具有至少两种正则化结果的字母字符替换为与所述连续字母字符的语义类型对应的标签。

688IT编程网

文本正则化模型训练方法和装置、文本正则化方法和装置

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

文本正则化模型训练方法和装置、文本正则化方法和装置

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行