供电局数据质量提升对策
随着信息技术在电网中的应用,电网产生的数据量和类型也急剧增加。面对逐渐复杂的数据资源,数据质量问题也随之增多,比如系统内/外的问题、核对标准的问题等,这些问题严重影响了电力信息系统的应用与推广,比较典型的例子就是电力营销信息管理系统用电客户档案的数据质量问题。电网企业在需要进行停电检修或电网故障导致停电时都会电话或短信通知客户,如果营销系统里记录的用电客户的缺失或者不准确,电力客服就无法及时准确地通知到客户,从而对用电客户的生产、生活造成不良影响。诸如此类的问题在电力资产管理系统,安全生产管理系统也一样存在。
随着电力营销、生产、资产等主业务信息系统都采取了“大集中”模式,数据质量的问题也逐步凸显。为了解决这些数据质量问题,供电系统逐渐引用了大数据技术。所以这对这些大数据和大数据技术,供电局应引入有效、可行方法,来提高数据质量。
1 电力大数据特征
生活中数据库系统的实际例子
目前,电力大数据指的是大数据的理论、技术以及思想在电力行业中的实践,它提供了从数据的采集一直到最后的展示较为完善的解决方案。
1.1 价值密度比较低
一般而言,数据的价值是取决于在大量的数据中挖掘有效的信息。比如,在输变电设备的检测系统中,采集的大部分数据是正常的,仅有少量的不正常,但是这些非正常的数据是对设备状态检测的关键性数据。
1.2 具有交互的特点
目前,电网企业正朝以用户为核心的方向进行转变,用户对供电系统服务质量的满意程度将会是很重要的考核指标,所以,供电系统可以根据数据的分析与挖掘,对用户的需求进行了解,来提高更高质量的服务。此外,交互特点还表现在用户在用电的高峰期会向电网进行供电。
1.3 处理的速度较快
在对数据进行决策时,对能够实时与在线处理的要求逐渐提高,因此必须提高对数据进行处理的速度,符合决策的要求,在极短的时间内对大量数据进行相关分析。
1.4 类型繁多
主要包括非结构化、半结构化和结构化。信息系统的建立加快了半结构化类型数据的增多,比如视频、音频以及图片等。另外,电网企业还要必备能源和气象等外部数据,才能保证供电的可靠性。
1.5 体量庞大
已经从TB级升到PB级。信息化的电网的建立使数据可以进行实时的收集与传输,间隔仅为秒级,使数据量呈指数增长。但是对大量数据的应用与存储技术还不完善,数据的价值不能得到良好的挖掘。
2 数据质量的影响因素
影响供电行业数据质量的原因非常多,而依据数据产生的节点与时间,能够把这些因素归为以下三类:
2.1 数据的导入过程
该过程一般指的是利用集成、接口或手工等方式把数据输入对应仓库的这一程序。这一程序对数据产生的作用主要体现在:(1)人工方式的录入方式,会因为一些没办法预防的原因,而导致结果难以预测;(2)对系统进行重建或升级维护时,经常会对旧系统进行淘汰或者合并,因此整顿数据与原来的数据之间的转换问题较为复杂,面临着严峻的挑战;(3)对原来的数据进行转换时,没有可以依靠的源系统的元数据,为源数据自身并不完备;(4)业务系统前台操作员录入不规范或系统对录入的数据未作校验,导致业务单据流程归档后,保存到后台数据库的原始数据就存在数据质量问题。
2.2 导致数据变坏的过程
会导致数据产生损坏的原因有很多:(1)不能对变化地对数据进行捕获,各个系统间通常具有很多的接口,在对接口进行修改时,通常不会把对它产生影响的统一修改;(2)在专业知识或者人员流失后,新来人员对数据的意义进行准确的分析比较困难;(3)数据的处理过程是一个自动化的操作,可能会发生某些验证界面很难涵盖数据的所有特点,也可能是因为性能上的原因将其屏蔽了,所以一旦出现错误,在将大量的数据反馈给客户的时候,将
会被责怪,用户对数据质量的感知度也会降低。
2.3 系统内部过程
系统自身在对数据进行整理分析的时候也会对其质量产生一定的影响,主要是对数据进行处理、清洗和清除的过程。第一,在对数据进行处理过程中,一旦处理程序发生变化,就会导致质量问题的出现,而新产生的对数据进行采集的程序同样会导致类似的现象,此外,如果在不对的时间发生突发事件,打破数据应有的状态,那么正确的程序也会导致不正确结果的出现,而该问题较为隐蔽,不易被查出;第二,对数据进行清洗的过程,导致危险发生的原因一般在于数据质量本身的内部相关性与复杂性。在解决了某一问题后,也许会导致很多类似或者其他有关数据的问题的出现。数据清洗的自动化是由计算机程序操控的,而程序本身存在bug,对大量数据的记录产生一定的影响,数据质量的说明书不能体现实际数据的需要,因此清洗的结果也许会与理论上的模型相符合,但对实际使用而言依旧是不对的;第三,对数据进行清除的过程,该过程可能会不小心对其他有关数据也进行了清除。
3 提高数据质量的对策
3.1 建立完善的数据质量保障体系
建立一个可行、有效、系统的数据质量的保障体系,应该使其具备这六大特点:(1)能够对数据质量进行较为全面的管理;(2)可以控制数据质量的所有程序;(3)活动要取得授权后才能进行;(4)建立规范的数据质量的可操作文档,保证数据质量全过程能够被检查;(5)必须对其进行不断改进:数据质量问题的出现是不可避免的,但及时对其纠正、预防再犯才是关键的环节;(6)要尤其关注对出现数据质量问题的数据进行收集,并建立完善的数据质量知识库。
3.2 对数据质量进行检查
该过程指的是对数据仓库中的数据质量是否具有问题进行检查,如果有问题,还要鉴定该问题级别。其目的是认识错误,并评估对它的影响程度。主要包括以下项目:
3.2.1 检查接口数据。提供接口数据时,其形式有文件和数据表两种类型,所以主要针对这两种类型进行检查。检查接口数据的及时性和完整性,出问题所在,确保数据在入库前没有显著的数据质量上的潜在问题。尤其是对于电子化移交的相关数据推送接口,一定要对数据推送的接口规范做严格的审查,加强对推送数据正确性、一致性、及时性、完整性的校验。
其中对接口文件的检查主要是对格式、大小、传送量、记录长度等进行检查;对接口表的检查主要是对其属性和时间等进行检查;对于其他方式的接口,依据接口的具体情况进行。
3.2.2 检查数据仓库。该过程一般指的是对数据仓库中数据的正确性、一致性、及时性、完整性进行检查,来确保仓库内数据质量的良好。鉴于电网信息系统的复杂性及海量数据,数据质量的提高是一项长期的周期性工作,需要定期对数据仓库中的数据进行检查,并不断完善数据检查脚本。
3.2.3 检查指定指标。该项检查主要是对数据的正确性进行质量方面的检查;确保数据可以根据业务的实际状况进行体现。因此制定相关数据质量考核指标,提高数据质量,对于电力公司业务开展及服务质量的提升具有积极作用。
3.3 控制数据质量问题
对数据质量进行的控制是通过某些方法对已经出现质量问题的数据实施处理的过程。若发现有些问题是因为系统引起的,就要改变数据仓库。控制的内容主要包括以下方面:
3.3.1 质量问题的处理程序。该流程主要分为:(1)数据质量管理员对质量问题的属性进行
判别,并执行相应的处理流程;(2)各个业务系统的代表提供实际情况,结合自身的经验,协助质量人员明确引起错误发生的最根本原因;(3)责任归属业务系统的代表应当协助对应的业务系统修改相应的系统,完成后发业务系统变更通知到数据仓库系统,而后数据仓库系统依据变更通知进入系统变更处理程序;(4)将已经产生错误的数据,启动错误数据的维护流程。
3.3.2 错误数据维护程序。在数据仓库系统中,因为历史性的因素引起的新数据库中的数据错误,必须进行维护。对这种错误性的数据的维护应该征得质量管理员或主管部门的意见,在维护工作完成后还要上交相应的报告,管理员对其进行检查与验证。
3.3.3 数据仓库系统变更程序。在业务环境变化的挑战面前,供电局对应业务的信息系统也一直在发生变化,那么数据仓库也一定在时刻的变更过程中。变更数据仓库系统的程序一般在技术与管理两个层面来使上述事件的处理程序规范化。
3.4 预防数据质量问题
3.4.1 数据质量测试。数据仓库对大量数据的输入进行处理后,也会给出大量的结果,其中
的存储量也非常之大,给数据仓库系统的测试带来了巨大的压力。值得注意的是,应该尤其强化测试流程的管理。
为确保数据的质量,管理员应当重视所有的检测过程,尤其是数据仓库系统中的测试方案和报告均需要质量管理员的检查通过。而检测方案中应该包括数据质量的检测、对所有方案的检验,还应向质量部门和仓库研发组上交相应的报告,此外,对于未通过的方案必须修改后重新提交。质量管理人员检查所有的报告,完毕后向研发、质量小组上交报告,不能通过检查的报告,即为未通过。
3.4.2 统计口径差异控制程序。统计口径作为管理元数据的重要组分,对仓库体系有着十分重要的价值。系统间统计口径的区别会对仓库体系的运行产生一定程度的影响,所以控制好口径的一致性是对数据质量问题进行预防的基础措施。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。