一种基于正则表达式的电力大数据采集、存储及分析方法--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 104881424 A (43)申请公布日 2015.09.02

(21)申请号 CN201510109943.2

(22)申请日 2015.03.13

(71)申请人国家电网公司;北京科东电力控制系统有限责任公司;华中电网有限公司

地址 100031 北京市西城区西长安街86号

(72)发明人杨建华白顺明肖达强魏庆海代勇刘定宜高春成樊爱军方印陶力史述红王蕾李守保王清波丁鹏袁明珠任东明刘杰赵显谭翔汪涛袁晓鹏张雪

(74)专利代理机构北京中济纬天专利代理有限公司

代理人张晓霞

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

一种基于正则表达式的电力大数据采集、存储及分析方法

(57)摘要

一种基于正则表达式的电力大数据采集、存储及分析方法，其特征在于，所述方法包括：(1)电力信息大数据采集；(2)多级存储技术；(3)电力市场大数据主成分分析方法；电力市场大数据主成分分析方法采用基于主成分分析的多元回归方法建立售电量事务信息模型。为了实现电力交易业务的数据增值服务，研究挖掘电力市场大数据价值的方法和技术，提取电力交易中心的交易业务大数据，分析典型应用场景，利用数据集成管理、数据存储、数据计算、分析挖掘等技术，实现面向典型业务场景的模式创新及应用提升。

法律状态

法律状态公告日	法律状态信息	法律状态
	正则匹配快代理

权利要求说明书

1.一种基于正则表达式的电力大数据采集、存储及分析方法，其特征在于，所述方法包括：

(1)电力信息大数据采集

电力信息采集的大数据主要格式分为：结构化、半结构化和非结构化数据；结构化：指在网页上发布的表格，内涵标准的数据库数据，可直接读取存储进关系数据库中；半结构化：指虽然用表格显示在网页中，但是内容行或者列之间的数据不一致，需要逐行或者逐列处理；或者将结构化的数据以文本行的形式显示，中间用分隔符分割的情况；非结构化：纯文本数据，需要从文本中按照一定的规则查匹配需要的数据；

采集的数据按照数据类型可分类：文本、多媒体、表格；爬虫将网页下载之后，根据HTML的语法规则，从中出标题、主体中的文本内容，出多媒体链接、以及内嵌的表格，分别对文本、多媒体、表格进行处理；

其中，文本采集模式：采用正则表达式进行匹配，JAVA内置的正则表达式基本满足要求，也可将匹配规则写成PERL脚本，其对文本的处理更加全面；模式数据库中存储的是正则表达式的模板，其中的关键词可以成组进行，使用正则表达式中的[]进行多选匹配，也可逐一进行；但是这些具体的匹配表达式中的关键词需要程序根据数据库中指定的关键词进行动态修改后再进行匹配；匹配时要考虑到数字的大写，年份的简写及诸多的特殊情况，因此匹配模式是需要经常修改的，尤其在前期的测试维护中，先大范围的搜索，再去除不符合的特殊情况；要考虑到书面用语中的的匹配；要考虑到关键词位置的变换，需要通过实际阅读网络文章，搜集可能出现的情况进行整理，匹配到最全的数据；

图像采集模式：有些数据是以图片的是发布的，也可能有些照片是需要搜集的，因此图像的采集只是按照指定的格式、尺寸、文件大小等进行抓取即可；由于不同的网站可能对图像添加了水印或者重新进行了编码压缩，导致检测图像的重复会很困难，因此只能检测绝对重复的图像，而不检测相似图像；每张图片保存其MD5值即可，重复的一律删除；

表格采集模式：先要在网页源文件中获取内置表格，并对表格的名称或者其中的文字进行快速检索，发现关键词才进行采集；

数据采集完毕后，对采集的数据再次进行过滤，主要过滤掉重复、错误的数据，将数据进行分类，以便存入数据库中；不同的网页显示的数据值可能有出入，这就需要制定规则，如何处理不同的数据，具体的情况要视情而定；将所有的过滤及融合的模式设定好，程序自动进行；如果出现特殊情况，则需要人工判断处理；

(2)多级存储技术

电力交易的结构化和非结构化的大数据经过抽取后，都以文件形式存储在分布式文件系统HDFS中；其中，Oracle、DB2、SQL Server、 MySQL结构化的大数据存储在分布式数据仓库Hive中，从网络客户端得到的非结构化数据存储在分布式数据库HBase中，以列族为组织形式，一个列族里的所有列成员都将最终存储在同一个HDFS文件中，而不同的列族有着各自对应的HDFS文件；存储在HDFS上的文档支持超大文件，它通常为数百GB、甚至数百TB大小的文件；

HDFS是一个高容错性的分布式文件系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，

适合大规模数据集上的应用；电力市场大量的非结构化数据可以存储在分布式文件系统HDFS上，供分析使用；

HDFS系统由Client、NameNode、DataNode构成：

(a)Client通过与NameNode和DataNode交互访问HDFS中的文件；提供了一个类似POSIX文件系统的接口供用户调用；

(b)NameNode是整个文件系统管理者，负载管理HDFS的目录树和相关的文件元数据信息，负责监控各个DataNode的健康状态，一旦发现DataNode挂掉，则将该DataNode移出HDFS并重新备份上面的数据，保证系统的高容错性；

(c)DataNode负责实际的数据存储，并将数据信息定期汇报给 NameNode；DataNode以固定大小的block块为基本单位组织文件内容，默认情况下block大小为64M；当客户端上传一个大的文件到HDFS 上时，文件会被分割成若干个block，分别存储在不同的DataNode；同时为了数据局的可靠性会将每个block写到若干个不同的 DataNode上，这种文件切割后存储的过程对用户是透明的；

HBase介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务，可通过hive支持来实现多表join等复杂操作；主要用来存储非结构化和半结构化的松散数据；与hadoop一样，HBase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力；

(3)电力市场大数据主成分分析方法

电力市场交易数据库的售电事务信息包括交易价格、区域经济指标、天气气候、机组出力、环保指标、燃料价格，其中电力交易价格、经济指标、天气气候的信息因素构成了三维空间，它们之间存在非正交关系；电力市场大数据主成分分析方法采用基于主成分分析的多元回归方法建立售电量事务信息模型；

688IT编程网

一种基于正则表达式的电力大数据采集、存储及分析方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

一种基于正则表达式的电力大数据采集、存储及分析方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式