(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 105630916 A (43)申请公布日 2016.06.01 | ||
(21)申请号 CN201510969896.9
(22)申请日 2015.12.21
(71)申请人 浙江工业大学
地址 310014 浙江省杭州市下城区潮王路18号
(72)发明人 张元鸣 肖刚 陈苗 陆佳炜 徐俊 高飞 沈志鹏 高亚琳
(74)专利代理机构 杭州天正专利事务所有限公司
代理人 王兵
文档字符串是什么(51)Int.CI
G06F17/30
权利要求说明书 说明书 幅图 |
(54)发明名称
一种大数据环境下非结构化表格文档数据抽取与组织方法 | |
(57)摘要
本发明涉及一种大数据环境下非结构化表格文档数据抽取与组织方法。首先,分析了非结构化表格文档的结构特征和数据流特征,定义了数据抽取规则;其次,给出了非结构化表格文档数据抽取流程与抽取算法;再次,给出了一种将抽取结果转换为结构化数据的组织方法;最后,给出了基于MapReduce并行编程模型对所得到的结构化数据集进行分析的方法。本方法能够为大数据环境下挖掘非结构化表格文档蕴藏的知识提供技术支持。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种大数据环境下非结构化表格文档数据抽取与组织方法,包括以下步骤:
(1)定义表格文档的基本特征与抽取规则;
(1.1)定义表格文档的结构特征;
(1.1.1)将表格文档划分为单值区域和多值区域,单值区域的一个标题区对 应一个数据区,即一对一关系;多值区域的一个标题区对应一个或多个数据区, 即一对多关系;
(1.1.2)将表格文档中的数据划分为标题区和数据区;标题区是指数据的性 质和类别,
数据区是指数据实际取值,如“姓名”为标题区,“陈建伟”为数据 区;
(1.2)定义表格文档的数据流特征;
先设表格文档单元格的每行字符串为一个五元组:
S=(V,L,N,E,F),其中
●V为该行字符串的值;
●L={s,m}表示该行字符串所属单元格为单行(s)或多行(m);
●N={s,m,null}表示该行字符串所属单元格的下一个单元格内容为单行(s)、 多行(m)或者该行所属单元格为表格该行的最后一个单元格(null);
●E={s,h}表示该行字符串包括软回车(s)或硬回车(h);
●F={y,n}表示该行字符串是当前单元格的最后一行(y)或不是最后一行(n);
再设表格文档单元格的每行字符串转换得到的数据流为一个二元组:
D=(V,A),其中
●V为该行字符串的值;
●A={s,e,se}表示转换后在V后新增的分隔符:空格s、换行e、空格及换 行se;
则,表格文档单元格的每行字符串生成数据流的特征可以归纳如下:
1)S=(V,s,s,Null,Null)→D=(V,s)
2)S=(V,s,m,Null,Null)→D=(V,se)
3)S=(V,m,Null,h,Null)→D=(V,se)
4)S=(V,m,Null,s,n)→D=(V,e)
5)S=(V,m,Null,s,y)→D=(V,se)
6)S=(V,Null,null,Null,Null)→D=(V,se)
以上多元组中的Null值表示可以取对应元素取值集合中的任意值,这些规则 是从非结构化数据流中抽取数据的重要依据;
(1.3)定义表格文档的数据抽取规则;
(1.3.1)区域划分规则:若标题区后是数据区,则该区域为单值区域;若标 题区后是连续的标题区,则该区域为多值区域;
(1.3.2)单值区域规则:标题区和数据区是一对一的关系,且数据区位于标 题区之后;
(1.3.3)多值区域规则:每行的标题区个数与数据区个数相同且顺序一致, 一个标题区可以拥有多个数据区;
(1.3.4)正向最大匹配规则:从当前字符开始的最大字符串如果与数据字典 中的某一字符串匹配,则该字符串为一个具有完整语义的标题区,在单值区域中 介于两个标题区之间的字符串为数据区;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论