(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 108491492 A (43)申请公布日 2018.09.04 | ||
(21)申请号 CN201810213267.7
(22)申请日 2018.03.15
(71)申请人 传神语联网网络科技股份有限公司
地址 430073 湖北省武汉市东湖高新技术开发区软件园中路光谷E城E2栋5楼
(72)发明人 罗伟峰
(74)专利代理机构
代理人
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种文档在线可视化拆分以及自动合并的方法、系统 | |
(57)摘要
本发明提供了一种文档在线可视化处理方法,所述方法整体上包括如下步骤:文档上传、文档解析、文档转换、格式文档处理以及文档拆分步骤;还包括文档还原步骤:根据所述至少一个拆分控制点将拆分后的文档进行合并。和现有技术不同,本申请的文档拆分和还原集合成一体,因此,还原过程,即合并将充分考虑拆分过程考虑的因素,例如标记/结构化元素等,从而保证原文档的结构不发生改变。本发明还提供文档在线可视化处理系统,包括正则化处理模块,所述正则化处理模块对所述文档转换器输出的文档进行正则化处理,通过所述正则化处理,以实现前述文档在线可视化处理方法。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种文档在线可视化处理方法,所述方法包括如下步骤:
(1)文档上传步骤:用户上传需要处理的文档;
(2)文档解析步骤:对所述文档进行整体的通篇分析,标记出文档中的文字段落以及其他特殊结构;
(3)文档转换步骤:将所述文档转换成浏览器可直接在线显示的格式;
(4)格式文档处理步骤:对所述转换后的文档进行字符串处理;
(5)文档拆分步骤:基于所述字符串处理的结果以及用户输入的拆分要求,对所述文档进行拆分操作;
其特征在于:
所述步骤(4)中的所述字符串处理,包括:整理所述转换后的文档的每一个文字段落的字数信息以及其他特殊结构的属性信息;
所述步骤(5)中的所述文档拆分步骤,进一步包括,得到至少一个拆分控制点,并在原文档中标记出所述至少一个拆分控制点。
2.如权利要求1所述的方法,其中,所述步骤(2)中的所述其他特殊结构,是指除文字段落结构之外的其他结构,包括表格、图片、页眉、签名、标注。
3.如权利要求1所述的方法,其中,所述步骤(3)的文档转换步骤,进一步包括:将所述文档转换成HTML格式文件。
4.如权利要求3所述的方法,其中,所述字符串处理,具体包括:使用正则表达式查所述HTML文件中的尖括号,定位出成对尖括号限定的字符串。正则匹配尖括号
5.如权利要求4所述方法,其中,定位出成对尖括号限定的字符串之后,进一步包括:对所述字符串逐一进行整理,依据断句逻辑重新编辑所述HTML文件中的相关元素标记。
6.如权利要求5所述的方法,其中,依据断句逻辑重新编辑所述HTML文件中的相关元素标记,包括:在HTML文件中新增一个元素标记,将同属一个句子的所有元素标记都包括其中,从而完成HTML的段落结构化。
7.如权利要求1-6任一项所述的方法,其中,所述文档拆分步骤,进一步包括:根据所述转换后的文档的每一个文字段落的字数信息以及其他特殊结构的属性信息以及用户输入的拆分要求,对文档进行预拆分,然后,用户选中某个段落进行细微调整并确认最终拆分方案。
8.如权利要求7所述的方法,进一步包括,文档还原步骤:根据所述至少一个拆分控制点将拆分后的文档进行合并。
9.一种文档在线可视化处理系统,所述系统包括文档输入组件、文档解析器、文档转换器、文档格式组件、文档拆分器,分别用于实现权利要求1所述的步骤(1)-步骤(5),
其特征在于,所述处理系统包括正则化处理模块,所述正则化处理模块对所述文档转换器输出的文档进行正则化处理,通过所述正则化处理,以实现权利要求3-7所述的方法。
10.一种计算机可读存储介质,其上存储有计算机执行指令;通过处理器和存储器,在计算机上执行所述指令,用于实现权利要求1-8任一项所述的方法。
说 明 书
<p>技术领域
本发明属于文档处理技术领域,尤其涉及一种文档在线可视化拆分以及自动合并的方法、系统。
背景技术
在目前的翻译行业中,翻译人员接收到的翻译文档越来越大,翻译任务繁重。为了保证翻译任务按时完成,必须将一件翻译任务合理分配给多个翻译人员完成;另外,直接处理一份较大的翻译文档,计算机上会出现明显的迟滞现象,例如打开速度较慢、保存滞后等现象。因此,必须将一份文档通过合理的拆分方法进行拆分后再进行处理;由多个翻译人员分别完成后,再进行文档合并。
然而,现有技术缺乏有效的能够适用于翻译文档拆分和合并的技术。发明人经过检索,目前仅存在一些简单的一键式文档拆分方法和系统。使用这些系统,可以输入文档后只能得到某个简单粗糙的拆分结果,并且这种拆分通常是机械的按照字数拆分,很容易就破坏了原文档的结构;但是对于翻译人员来说,翻译过程通常需要结果文档的整体上下文来进行以保证翻译符合语境,因此上述简单的机械拆分工具不能应用于翻译文档;另外,现有的翻译技术对于用户来说是一个被动的“黑箱”操作过程,在整个过程中,用户无法看到原文档的拆分过程,更无
法调整拆分结果,只能被动接受输出的拆分结果。这种拆分仅仅按照字数标准来,拆分过程不能由用户反馈和调整;一旦拆分结果不能满足要去,拆分过程就得重来一遍,极大的降低了工作效率;最后,上述拆分技术通常只考虑文字段落及其文本,而忽略了文档中可能存在的特殊结构,包括表格、图片、标记、签名、页眉、页脚、修改标记等;特别是文档中的表格,现有的处理技术由于只基于字数标准拆分文档,很有可能破坏表格的完整性,例如,将同一个表格拆分到不同的子文档中。
更重要的是,现有的所述拆分系统只能完成拆分,而忽视后续的合并步骤;如果要进行合并,则需要另外运行一个合并文档的工具;但是,现有的合并工具也只能类似于拆分工具那样,机械的合并多个子文档;并且,由于合并工具和拆分工具互不关联,合并工具不能利用到拆分过程用到的拆分标记,不能保持文档的整体架构在拆分-合并之后保持不变。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论