(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 107680579 A
(43)申请公布日 2018.02.09
(21)申请号 CN201710912134.4
(22)申请日 2017.09.29
(71)申请人 百度在线网络技术(北京)有限公司
    地址 100085 北京市海淀区上地十街10号百度大厦三层
(72)发明人 陈汉英
(74)专利代理机构 北京英赛嘉华知识产权代理有限责任公司
    代理人 王达佐
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      文本正则化模型训练方法和装置、文本正则化方法和装置
(57)摘要
      本申请公开了文本正则化模型训练方法和装置、文本正则化方法和装置。该模型训练方法的一具体实施方式包括:将输入文本对应的输入字符序列中的输入字符依次输入文本正则化模型对应的循环神经网络中,其中输入文本对应的输入字符序列按照如下方式生成:按照第一预设粒度对输入文本进行分割得到第一分割结果;将第一分割结果中的具有至少两种正则化结果的非汉字字符进行标签化处理;基于循环神经网络对各输入字符进行分类,得到输入字符序列的预测分类结果;根据输入字符序列的预测分类结果与输入文本的正则化文本的标注分类结果之间的差异,对神经网络的参数进行调整;该实施方式实现了文本正则化模型的自动化训练,提升了文本正则化模型的灵活性。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种文本正则化模型训练方法,其特征在于,所述方法包括:
将输入文本对应的输入字符序列中的输入字符依次输入待生成的文本正则化模型对应的循环神经网络中;
基于所述循环神经网络对各所述输入字符进行分类,得到所述输入字符序列的预测分类结果;
根据所述输入字符序列的预测分类结果与所述输入文本的正则化文本的标注分类结果之间的差异,对所述循环神经网络的参数进行调整;
其中,所述输入文本对应的输入字符序列是按照如下方式生成的:
按照第一预设粒度对所述输入文本进行分割得到第一分割结果;
将所述第一分割结果中的具有至少两种正则化结果的非汉字字符进行标签化处理,得到所述输入字符序列。
2.根据权利要求1所述的方法,其特征在于,所述第一分割结果中的具有至少两种正则化结果的非汉字字符包括以下至少一项:具有至少两种正则化结果的符号字符、具有至少两种正则化结果的连续数字字符、具有至少两种正则化结果的字母字符;
所述第一分割结果中的具有至少两种正则化结果的非汉字字符是按照如下方式进行标签化处理的:
将所述第一分割结果中的具有至少两种正则化结果的符号字符替换为所述符号字符的读音类型标签,将所述第一分割结果中的具有至少两种正则化结果的连续数字字符替换为与所述连续数字字符的语义类型对应且包含所述连续数字字符的长度信息的标签,将所述第一分割结果中具有至少两种正则化结果的字母字符替换为与所述字母字符的语义类型对应的标签。
3.根据权利要求1所述的方法,其特征在于,所述输入字符序列的预测分类结果包括所述输入字
符序列中各所述输入字符的预测类别信息;
所述输入文本的正则化文本的标注分类结果包括与所述输入文本的正则化文本对应的目标字符序列中各目标字符的已标注类别信息。
4.根据权利要求3所述的方法,其特征在于,所述输入文本的正则化文本的标注分类结果按照如下方式生成:
将所述输入文本的正则化文本按照第二预设粒度进行分割,得到第二分割结果,所述第二分割结果包括以下至少一项:与所述输入文本中的单个汉字字符对应的单个汉字字符、与所述输入文本中的连续数字字符对应的第一汉字字符串、与所述输入文本中的符号字符对应的第二汉字字符串或符号字符、以及与所述输入文本中的字母字符对应的第三汉字字符串或字母字符;
将所述第二分割结果中的与所述输入文本中的单个汉字字符对应的单个汉字字符、与所述输入文本中的符号字符对应的符号字符、以及与所述输入文本中的字母字符对应的字母字符替换为第一预设类别标识;
将所述第二分割结果中的与所述输入文本中的连续数字字符对应的第一汉字字符串替换为用
于标识所述输入文本中对应的连续数字字符的语义类型的第一语义类别标识;
正则化工具包
将所述第二分割结果中的与所述输入文本中的符号字符对应的第二汉字字符串替换为用于标识所述输入文本中对应的符号字符的语义类型的第二语义类别标识;
将与所述输入文本中的字母字符对应的第三汉字字符串替换为用于标识所述输入文本中对应的字母字符的语义类型的第三语义类别标识。
5.一种文本正则化方法,其特征在于,所述方法包括:
获取已按照第一预设粒度对待处理文本进行分割,并将分割结果中的具有至少两种正则化结果的非汉字字符进行标签化处理得到的待处理字符序列;
将所述待处理字符序列输入已训练的文本正则化模型,得到输出类别标识序列;
基于所述待处理字符序列对所述输出类别标识序列中的输出类别标识进行转换,得到各所述输出类别标识对应的输出字符,并按顺序组合各所述输出字符,得到所述待处理文本的正则化文本;
其中,所述文本正则化模型基于如权利要求1-4任一项所述的方法训练。
6.根据权利要求5所述的方法,其特征在于,所述分割结果中的具有至少两种正则化结果的非汉字字符包括以下至少一项:具有至少两种正则化结果的符号字符、具有至少两种正则化结果的连续数字字符、具有至少两种正则化结果的字母字符;
所述分割结果中的具有至少两种正则化结果的非汉字字符是按照如下方式进行标签化处理的:
将所述分割结果中的具有至少两种正则化结果的符号字符替换为所述符号字符的读音类型标签,将所述分割结果中的具有至少两种正则化结果的连续数字字符替换为与所述连续数字字符的语义类型对应且包含所述连续数字字符的长度信息的标签,将所述分割结果中具有至少两种正则化结果的字母字符替换为与所述连续字母字符的语义类型对应的标签。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。