专利名称:一种提取多语言PDF文档中日期的方法专利类型:发明专利
发明人:倪旻恒,张宏磊,李永立
申请号:CN202011584156.0
申请日:20201228
公开号:CN112712085A
公开日:
20210427
专利内容由知识产权出版社提供
正则匹配公司名称摘要:本发明公开了一种提取多语言PDF文档中日期的方法,具体实施步骤包括:基于反二进制化格式解码技术获取PDF文档的结构化信息;利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。然后,训练基于深度学习的命名实体识别模型,利用命名实体识别模型和正则表达式匹配技术获取多语言环境下日期信息序列。最后,获取待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系的特征数据库,获取所需日期信息。该技术与现有技术相比能处理无固定格式文档或格式复杂多变文档、较低图片式文档,和含有多种语言的PDF文档。
申请人:哈尔滨工业大学
地址:150001 黑龙江省哈尔滨市南岗区西大直街92号
国籍:CN
代理机构:哈尔滨龙科专利代理有限公司
代理人:高媛
更多信息请下载全文后查看

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。