(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 104881424 A
(43)申请公布日 2015.09.02
(21)申请号 CN201510109943.2
(22)申请日 2015.03.13
(71)申请人 国家电网公司;北京科东电力控制系统有限责任公司;华中电网有限公司
    地址 100031 北京市西城区西长安街86号
(72)发明人 杨建华 白顺明 肖达强 魏庆海 代勇 刘定宜 高春成 樊爱军 方印 陶力 史述红 王蕾 李守保 王清波 丁鹏 袁明珠 任东明 刘杰 赵显 谭翔 汪涛 袁晓鹏 张雪
(74)专利代理机构 北京中济纬天专利代理有限公司
    代理人 张晓霞
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于正则表达式的电力大数据采集、存储及分析方法
(57)摘要
      一种基于正则表达式的电力大数据采集、存储及分析方法,其特征在于,所述方法包括:(1)电力信息大数据采集;(2)多级存储技术;(3)电力市场大数据主成分分析方法;电力市场大数据主成分分析方法采用基于主成分分析的多元回归方法建立售电量事务信息模型。为了实现电力交易业务的数据增值服务,研究挖掘电力市场大数据价值的方法和技术,提取电力交易中心的交易业务大数据,分析典型应用场景,利用数据集成管理、数据存储、数据计算、分析挖掘等技术,实现面向典型业务场景的模式创新及应用提升。
法律状态
法律状态公告日
法律状态信息
法律状态
正则匹配快代理
权 利 要 求 说 明 书
1.一种基于正则表达式的电力大数据采集、存储及分析方法,            其特征在于,所述方法包括:           
(1)电力信息大数据采集           
电力信息采集的大数据主要格式分为:结构化、半结构化和非结            构化数据;结构化:指在网页上发布的表格,内涵标准的数据库数据,            可直接读取存储进关系数据库中;半结构化:指虽然用表格显示在网            页中,但是内容行或者列之间的数据不一致,需要逐行或者逐列处理;            或者将结构化的数据以文本行的形式显示,中间用分隔符分割的情况;            非结构化:纯文本数据,需要从文本中按照一定的规则查匹配需要            的数据;           
采集的数据按照数据类型可分类:文本、多媒体、表格;爬虫将            网页下载之后,根据HTML的语法规则,从中出标题、主体中的文            本内容,出多媒体链接、以及内嵌的表格,分别对文本、多媒体、            表格进行处理;           
其中,文本采集模式:采用正则表达式进行匹配,JAVA内置的            正则表达式基本满足要求,也可将匹配规则写成PERL脚本,其对文            本的处理更加全面;模式数据库中存储的是正则表达式的模板,其中            的关键词可以成组进行,使用正则表达式中的[]进行多选匹配,也可            逐一进行;但是这些具体的匹配表达式中的关键词需要程序根据数据            库中指定的关键词进行动态修改后再进行匹配;匹配时要考虑到数字            的大写,年份的简写及诸多的特殊情况,因此匹配模式是需要经常修            改的,尤其在前期的测试维护中,先大范围的搜索,再去除不符合的                            特殊情况;要考虑到书面用语中的的匹配;要考虑到关键词位置的变            换,需要通过实际阅读网络文章,搜集可能出现的情况进行整理,匹            配到最全的数据;           
图像采集模式:有些数据是以图片的是发布的,也可能有些照片            是需要搜集的,因此图像的采集只是按照指定的格式、尺寸、文件大            小等进行抓取即可;由于不同的网站可能对图像添加了水印或者重新            进行了编码压缩,导致检测图像的重复会很困难,因此只能检测绝对            重复的图像,而不检测相似图像;每张图片保存其MD5值即可,重复            的一律删除;           
表格采集模式:先要在网页源文件中获取内置表格,并对表格的            名称或者其中的文字进行快速检索,发现关键词才进行采集;           
数据采集完毕后,对采集的数据再次进行过滤,主要过滤掉重复、            错误的数据,将数据进行分类,以便存入数据库中;不同的网页显示            的数据值可能有出入,这就需要制定规则,如何处理不同的数据,具            体的情况要视情而定;将所有的过滤及融合的模式设定好,程序自动            进行;如果出现特殊情况,则需要人工判断处理;           
(2)多级存储技术           
电力交易的结构化和非结构化的大数据经过抽取后,都以文件形            式存储在分布式文件系统HDFS中;其中,Oracle、DB2、SQL Server、            MySQL结构化的大数据存储在分布式数据仓库Hive中,从网络客户            端得到的非结构化数据存储在分布式数据库HBase中,以列族为组织            形式,一个列族里的所有列成员都将最终存储在同一个HDFS文件中,                            而不同的列族有着各自对应的HDFS文件;存储在HDFS上的文档支持            超大文件,它通常为数百GB、甚至数百TB大小的文件;           
HDFS是一个高容错性的分布式文件系统,适合部署在廉价的机            器上,能够提供高吞吐量的数据访问,
适合大规模数据集上的应用;            电力市场大量的非结构化数据可以存储在分布式文件系统HDFS上,            供分析使用;           
HDFS系统由Client、NameNode、DataNode构成:           
(a)Client通过与NameNode和DataNode交互访问HDFS中的            文件;提供了一个类似POSIX文件系统的接口供用户调用;           
(b)NameNode是整个文件系统管理者,负载管理HDFS的目录            树和相关的文件元数据信息,负责监控各个DataNode的健康状态,            一旦发现DataNode挂掉,则将该DataNode移出HDFS并重新备份上            面的数据,保证系统的高容错性;           
(c)DataNode负责实际的数据存储,并将数据信息定期汇报给            NameNode;DataNode以固定大小的block块为基本单位组织文件内            容,默认情况下block大小为64M;当客户端上传一个大的文件到HDFS            上时,文件会被分割成若干个block,分别存储在不同的DataNode;            同时为了数据局的可靠性会将每个block写到若干个不同的            DataNode上,这种文件切割后存储的过程对用户是透明的;           
HBase介于nosql和RDBMS之间,仅能通过主键(row key)和            主键的range来检索数据,仅支持单行事务,可通过hive支持来实            现多表join等复杂操作;主要用来存储非结构化和半结构化的松散                            数据;与hadoop一样,HBase目标主要依靠横向扩展,通过不断增            加廉价的商用服务器,来增加计算和存储能力;           
(3)电力市场大数据主成分分析方法           
电力市场交易数据库的售电事务信息包括交易价格、区域经济指            标、天气气候、机组出力、环保指标、燃料价格,其中电力交易价格、            经济指标、天气气候的信息因素构成了三维空间,它们之间存在非正            交关系;电力市场大数据主成分分析方法采用基于主成分分析的多元            回归方法建立售电量事务信息模型;           

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。