(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201710079131.7
(22)申请日 2017.02.14
(71)申请人 华北电力大学
地址 102206 北京市昌平区朱辛庄
(72)发明人 唐良瑞 樊冰 王瑞杰 吴润泽
陈文伟
(74)专利代理机构 北京华谊知识产权代理有限
公司 11207
代理人 刘月娥
(51)Int.Cl.
G06F 17/30(2006.01)
G06Q 50/06(2012.01)
(54)发明名称电力调控系统多源异构数据融合中的字符串匹配方法(57)摘要一种电力调控系统多源异构数据融合中的字符串匹配方法,属于电力调度控制系统多源异构数据融合技术领域。首先依据电力调度控制系统数据特点制定了字符串匹配规则,其次给出了一种字符串匹配度计算方法,最后字符串匹配结
果综合考虑匹配规则和匹配度得出。用于解决电力调度控制系统多源异构数据融合中的字符串匹配问题。针对电力调度控制系统多源异构数据融合过程中存在的字符串匹配问题,优点在于,可快速、准确的计算电力调度控制系统字符串数据匹配结果,有效解决了调度控制系统多源异构数据融合中遇到的字符串匹配问题,为调控系统
多源异构数据的融合提供了有力的技术支撑。权利要求书2页 说明书8页 附图2页CN 106919663 A 2017.07.04
C N 106919663
A
1.一种电力调控系统多源异构数据融合中的字符串匹配方法,其特征在于,包括如下步骤:
(1)确定调控数据关键词;
调控数据关键词是电力调控系统数据中专业的公共词语,根据电力调度控制系统数据信息和历史数据特点提取得到;
电力调控数据关键词包括变电站、变、站、电压、电压等级、kv、kv电压、交流、母线、线路、线、开关、刀闸、隔离开关、断路器、电抗器、电流互感器、电压互感器、电容器;
(2)制定关键词等价规则;
关键词等价规则为:
给定关键词集合A={a1,a2,…a i,…a n}上的一个二元关系R=A×A,设M R=(m ij)n×n为R 的关系矩阵,当a i与a j等价时,m ij=1,否者m ij=0。
根据关系矩阵M R将A划分为不同的等价子集A k,选择A k中的元素t k作为A k的代表元素,构建唯一标识集T={t k},k=1,2,…;
(3)制定数字类数据匹配规则;
数字类数据匹配规则为:
对于调控字符串数据中出现的阿拉伯数字、希腊字母等数字型数据,当连续出现若干个阿拉伯数字,则将这若干个连续数字转换为数字型数据,并按照数字型数据匹配方法计算匹配结果;若匹配成功,则进行下一步匹配工作;若匹配失败,则判定整个字符串不匹配;同理,若出现希腊数字,则需要将连续的希腊数字单独取出,并判断希腊数字对应部分是否相等;若相等,则进行下一步匹配工作;若不相等,则判定整个字符串不匹配;
(4)字符串匹配度计算方法
根据电力调度控制系统数据特点和字符串匹配规则,提出了一种字符串匹配度计算方法;
字符串匹配度计算方法为:
比较待匹配的两个字符串的字符长度,定义字符数较长的字符串为s1,作为主串,字符数较短的字符串为s2,作为模式串。模式串s2从左向右移动,每移动一个字符计算一次当前字符串匹配度d w,当移动了l个字符,则字符串匹配结果记作d wl;直到模式串s2的第1个字符移动到主串s1的最后一个字符为止;最后选取最大的d wmax作为字符串匹配度,即d wmax=max {d w0,d w1,…,d wl,…};
其中,d w的计算方法为:
假设待匹配的字符串为s1、s2,根据字符串的匹配字符数和交换字符数确定两个字符串的基本相似度d s,计算过程如式(1)所示。
式中,m是匹配的字符数,x是依据匹配窗口(Match Window,MW)计算得到交换字符数目,为不同顺序的匹配字符的数目的一半;|s1|、|s2|分别为字符串的字符数目,匹配窗口MW为
根据调控数据特征,存在连续相同字符的两个字符串通常是对同一事物的描述,因此应提高该情况下的字符串匹配度。在基本相似度d s的基本上,定义了一个范围因子β和当前字符串匹配度d w。若字符串s1、s2连续相同字符的最大数目为L,则字符串匹配度d w为
d w=d s+L*β(1-d x) (4)
式中,β的取值范围为(0,0.2),一般取0.1;
(5)制定字符串匹配总规则;
所述电力调度控制系统字符串数据匹配总规则包括关键词匹配规则、数字型数据匹配过程、计算字符串匹配度和字符串匹配结果判定规则;
字符串数据匹配总规则如下:
①关键词匹配规则:当两个字符串中关键词经过等价规则之后,存在不一致情况,直接判断字符串不匹配;当关键词完全一致,则按照数字型数据匹配规则继续进行匹配;
②匹配数字型数据过程:关键词匹配成功之后,依据数字型数据匹配规则对数字型数据进行匹配;若数字型数据匹配不成功,则直接判定两个字符串不匹配;否则,继续计算字符串匹配度;
③计算字符串匹配度:关键词和数字型数据都匹配后,则按照字符串匹配算法计算字符串匹配度;但是,无论关键词含有几个字符,一律按照一个字符计算,“电压”和“母线”都按照一个字符进行计算;数字型数据也按照一个字符计算;
④字符串匹配结果判定规则:若字符串、的字符串匹配度满足
d w≥α(5)
式中,代表字符串匹配度阈值,则判定字符串、是匹配的;否则,两个字符串不匹配。
电力调控系统多源异构数据融合中的字符串匹配方法逗号分割字符串转数组
技术领域
[0001]本发明属于电力调度控制系统多源异构数据融合技术领域,特别是提供了一种电力调控系统多源异构数据融合中的字符串匹配方法。
背景技术
[0002]近年来,随着电力信息化的推进与智能电网的发展,电力系统运行、调度与控制中数据来源十分
广泛,同时,数据的规模越来越大和种类也在快速增长。其中,这些数据的数据源不仅包括用电信息采集系统、营销系统、广域监测系统(wide area measurement system,WAMS)、配电管理系统、生产管理系统、能量管理系统(energy management system,EMS)、设备检测和监测系统、客户服务系统、财务管理系统等内部数据源,还包括气象信息系统、地理信息系统、公共服务部门等外部数据源。这些电力系统运行与控制中产生的数据具有如下特征:①数据规模大,②数据类型多样化,③数据产生的速率快,④数据的价值密度低,⑤数据安全性高。这些数据之间并非完全独立,不同系统、类型的数据之间存在着复杂的相关性。面对海量的复杂电力大数据,传统的数据共享技术、数据处理技术在数据存储、查询与分析等方面遇到瓶颈,因此,亟需开展研究应用于电力大数据共享、融合、存储、查询、数据挖掘分析等方面的大数据相关技术。电力调度控制系统是电力企业中的主要系统之一。电力调度控制系统的数据来自于10余套独立的应用系统,同样面临着数据量庞大、存在信息异构问题以及“数据共享不畅,数据集成程度不够”的挑战。
[0003]为了解决电力调度控制系统数据的信息异构和集成程度低问题,实现调控大数据共享和数据融合,需要研究基于大数据技术的多源异构数据融合技术。在异构数据融合过程中,涉及到了各种类型数据匹配问题。数字型、字符型的数据比较相对容易匹配,但是在匹配字符串类型数据时遇到了各种挑战——依据JaroDistance、Jaro-Winkler Distance 和KMP等传统的字符串匹配算法匹配电力调控字符串数据时,会出现字符串数据匹配不上或者错误匹配等问题,严重影响了调控多源异构数据的融合过程,造成数据分析挖掘的结果的错误,干扰了电力系统调度计划的制定。
发明内容
[0004]本发明的目的在于提供一种电力调控系统多源异构数据融合中的字符串匹配方法用于解决电力调度控制系统多源异构数据融合中的字符串匹配问题。针对电力调度控制系统多源异构数据融合过程中存在的字符串匹配问题,为调控系统多源异构数据的融合提供了有力的技术支撑。可快速、准确的计算电力调度控制系统字符串数据匹配结果。[0005]本发明首先依据电力调度控制系统数据特点制定了字符串匹配规则,其次给出了一种字符串匹配度计算方法,最后字符串匹配结果综合考虑匹配规则和匹配度得出。具体提出的字符串匹配方法如下:
[0006]根据电力调度控制系统数据特点,提取了调度控制系统数据关键词;
[0007]调控数据关键词是电力调控系统数据中专业的公共词语,根据电力调度控制系统
数据信息和历史数据特点提取得到;
[0008]电力调控数据关键词包括变电站、变、站、电压、电压等级、kv、kv电压、交流、母线、线路、线、开关、刀闸、隔离开关、断路器、电抗器、电流互感器、电压互感器、电容器;[0009]针对调度控制系统数据关键词中存在的多词同义问题,提出了一种关键词等价规则,将表示同种意思的关键词以等价关系进行处理;
[0010]数字类数据匹配规则为:
[0011]对于调控字符串数据中出现的阿拉伯数字、希腊字母等数字型数据,如果连续出现若干个阿拉伯数字,则将这若干个连续数字转换为数字型数据,并按照数字型数据匹配方法计算匹配结果;若匹配成功,则进行下一步匹配工作;若匹配失败,则判定整个字符串不匹配。同理,若出现希腊数字,则需要将连续的希腊数字单独取出,并判断希腊数字对应部分是否相等。若相等,则进行下一步匹配工作;若不相等,则判定整个字符串不匹配。[0012]针对调控字符串数据中出现的连续若干个阿拉伯数字或者希腊数字是否匹配直接影响字符串匹配结果的问题,制定了数字类数据匹配规则,将若干个连续数字转换为数字型数据处理;
[0013]根据电力调度控制系统数据特点和字符串匹配规则,提出了一种字符串匹配度计算方法;
[0014]根据电力调度控制系统数据特点、字符串匹配度计算方法以及关键词、数字型数据匹配规则,制定了电力调度控制系统字符串数据匹配总规则。
[0015]优选的,上述电力调度控制系统多源异构数据的字符串匹配方法中,所述电力调度控制系统字符串数据匹配总规则包括:
[0016]关键词匹配规则、数字型数据匹配过程、计算字符串匹配度和字符串匹配结果判定规则。
[0017]优选的,上述电力调度控制系统多源异构数据的字符串匹配方法中,所述调度控制系统数据关键词的提取方式为:
[0018]根据电力调度控制系统数据信息和历史数据特点,从调控系统数据中提取专业的公共词语,从而得到关键词。电力调控系统数据关键词主要包括变电站、变、站、电压、电压等级、kv、kv电压、交流、母线、线路、线、开关、刀闸、隔离开关、断路器、电抗器、电流互感器、电压互感器、电容器等。
[0019]优选的,上述电力调度控制系统多源异构数据的字符串匹配方法中,所述关键词等价规则为:
[0020]给定关键词集合A={a1,a2,…a i,…a n}上的一个二元关系R=A×A,设M R=(m ij)n×n 为R的关系矩阵,当a i与a j等价时,m ij=1,否者m ij=0。
[0021]在电力调度控制系统数据的关键词中,同种语义可能使用不同的词语进行表达。比如,变电站可用“变电站”、“变”或“站”进行表示,电压可用“KV”、“KV电压”或“电压等级”进行表示。为了解决同种语义多种表达的问题,采用等价规则对关键词进行匹配。电力调度控制系统数据的关键词集合A={变电站,变,站,电压,电压等级,kv、kv电压、交流,母线,线路,开关,刀闸,隔离开关,断路器,电抗器,电流互感器,电压互感器,电容器}。则关键词集合A中关键词的等价关系矩阵M R可以表示为
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论