一种大数据环境下非结构化表格文档数据抽取与组织方法--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 105630916 A (43)申请公布日 2016.06.01

(21)申请号 CN201510969896.9

(22)申请日 2015.12.21

(71)申请人浙江工业大学

地址 310014 浙江省杭州市下城区潮王路18号

(72)发明人张元鸣肖刚陈苗陆佳炜徐俊高飞沈志鹏高亚琳

(74)专利代理机构杭州天正专利事务所有限公司

代理人王兵

文档字符串是什么(51)Int.CI

G06F17/30

权利要求说明书说明书幅图

(54)发明名称

一种大数据环境下非结构化表格文档数据抽取与组织方法

(57)摘要

本发明涉及一种大数据环境下非结构化表格文档数据抽取与组织方法。首先，分析了非结构化表格文档的结构特征和数据流特征，定义了数据抽取规则；其次，给出了非结构化表格文档数据抽取流程与抽取算法；再次，给出了一种将抽取结果转换为结构化数据的组织方法；最后，给出了基于MapReduce并行编程模型对所得到的结构化数据集进行分析的方法。本方法能够为大数据环境下挖掘非结构化表格文档蕴藏的知识提供技术支持。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种大数据环境下非结构化表格文档数据抽取与组织方法，包括以下步骤：

(1)定义表格文档的基本特征与抽取规则；

(1.1)定义表格文档的结构特征；

(1.1.1)将表格文档划分为单值区域和多值区域，单值区域的一个标题区对应一个数据区，即一对一关系；多值区域的一个标题区对应一个或多个数据区，即一对多关系；

(1.1.2)将表格文档中的数据划分为标题区和数据区；标题区是指数据的性质和类别，

数据区是指数据实际取值，如“姓名”为标题区，“陈建伟”为数据区；

(1.2)定义表格文档的数据流特征；

先设表格文档单元格的每行字符串为一个五元组：

S＝(V，L，N，E，F)，其中

●V为该行字符串的值；

●L＝{s，m}表示该行字符串所属单元格为单行(s)或多行(m)；

●N＝{s，m，null}表示该行字符串所属单元格的下一个单元格内容为单行(s)、多行(m)或者该行所属单元格为表格该行的最后一个单元格(null)；

●E＝{s，h}表示该行字符串包括软回车(s)或硬回车(h)；

●F＝{y，n}表示该行字符串是当前单元格的最后一行(y)或不是最后一行(n)；

再设表格文档单元格的每行字符串转换得到的数据流为一个二元组：

D＝(V，A)，其中

●V为该行字符串的值；

●A＝{s，e，se}表示转换后在V后新增的分隔符：空格s、换行e、空格及换行se；

则，表格文档单元格的每行字符串生成数据流的特征可以归纳如下：

1)S＝(V，s，s，Null，Null)→D＝(V,s)

2)S＝(V，s，m，Null，Null)→D＝(V,se)

3)S＝(V，m，Null，h，Null)→D＝(V,se)

4)S＝(V，m，Null，s，n)→D＝(V,e)

5)S＝(V，m，Null，s，y)→D＝(V,se)

6)S＝(V，Null，null，Null，Null)→D＝(V,se)

以上多元组中的Null值表示可以取对应元素取值集合中的任意值，这些规则是从非结构化数据流中抽取数据的重要依据；

(1.3)定义表格文档的数据抽取规则；

(1.3.1)区域划分规则：若标题区后是数据区，则该区域为单值区域；若标题区后是连续的标题区，则该区域为多值区域；

(1.3.2)单值区域规则：标题区和数据区是一对一的关系，且数据区位于标题区之后；

(1.3.3)多值区域规则：每行的标题区个数与数据区个数相同且顺序一致，一个标题区可以拥有多个数据区；

(1.3.4)正向最大匹配规则：从当前字符开始的最大字符串如果与数据字典中的某一字符串匹配，则该字符串为一个具有完整语义的标题区，在单值区域中介于两个标题区之间的字符串为数据区；

688IT编程网

一种大数据环境下非结构化表格文档数据抽取与组织方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

一种大数据环境下非结构化表格文档数据抽取与组织方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式