2016年12月第19卷第23期
中国管理信息化
China Management Informationization
Dec.,2016
Vol.19,No.23
CSRimpute算法填补效果的正则化参数灵敏度分析
邵晓晨,宋蕊
(北京科技大学东凌经济管理学院,北京100083)
[摘要]传统的数据挖掘研究开展的前提是数据对象各个属性拥有确定值,而在一般的高维数据研究中,人们所能收集到 的数据往往是不完全的,即存在缺失数据。现有主要方法大多是将缺失数据填补问题扩展为对象之间的相似度计算问题。其 中,分类属性有别于数值属性,难以直接进行数学计算衡量相似度。C SR im pute算法引入稀疏表示理论完成对分类属性缺 失数据的填补,其在分类属性数据集上相比其他传统
方法具有一定的优势。文章重点分析了 C SR im pute算法在4个数据集 中的缺失数据填补效果是如何受到/,范数和12范数正则化项的影响,实验结果表明C SR im pute算法对正则化参数的选择 并不十分敏感。
[关键词]稀疏表示;缺失数据填补;分类属性
doi: 10. 3969/j.issn. 1673 - 0194. 2016. 23.084
[中图分类号]TP301.6 [文献标识码]A[文章编号]1673-0194(2016)23-0159-04
1引言
稀疏表示理论咱1暂是机器学习领域近几年出现的新方法,其 应用最小化造员范数咱2暂的优化方法获得基于过完备字典特征表 示的稀疏向量,是获取、表示数据的有效工具。在现有的分类研 究应用中,稀疏表示获得了比传统方法更好的分类性能,已成
[收稿日期]2016-10-17
用的文档工具人工维护。
3.2组织实施
在具体组织实施过程中,设计了专门的PL C软件研制过程 质量管理与评估表。该表对器件模块的选择控制、PLC研制流 程执行情况、PL C软件生命周期各关键节点的检查、测试验证 情况等4类问题,提出了 17项共29条面向军工髙端工艺装备 中PL C软件研制过程的具体要求和评估准则。
在实际操作过程中,PL C软件研发团队需要在“软件工程 过程组”的监督和管理,同时“软件质量保证组”负责组织专家 对PL C软件研发团队开展现场检查,并针对各项内容进行质询 并要求提供相关证据和理由。专家根据质询结果,依据评估准 则的权重(A到C权重依次降低),对目标软件研制情况进行总 体评估并出具整改意见。研制团队需要在一定时间内根据专家 的整改意见进行问题的回归,并上报质量管理人员进行再评 估,直到达到软件出厂标准的要求。
4结论
在实际的项目领域,技术问题往往已经不是主要问题,管 理问题才是关键问题。特别是在PL C软件领域,采用的很多技功应用于人脸识别、语音识别等信号和图像识别领域咱3暂。另一 方面,传统的数据挖掘理论研究需要数据完整而确定,但在实 际应用中,由于数据测量误差、获取限制、存储介质故障等原 因,人们所能收集到的数据往往存在缺失现象。应对数据缺失 现象的常规做法是寻求合适的算法进行缺失数据填补。相较于 能够直接进行数值计算的数值型属性,在处理分类属性时,由于其不具备直接进行数值计算的原理,需要进行相应处理后方
术都是成熟的或者是经过验证的技术,因此管理问题对项目的 成败显得尤为重要。GJB5000A-2008认证是军工企业获取研制 许可的资格认证。本文针对P L C软件研发特点,结合GJB5000A-2008的本地化提出了高端工艺装备研制中PL C软 件的工程化管理方法与规范,有效促进了 PL C软件企业进行软 件过程改进,使项目研制由作坊式变得更加规范,能够在成本 可控且一定时间内生产出可靠的PLC软件产品。同时对军工企 业推进GJB5000A-2008二级体系建设,以及向三级体系发展具 有借鉴作用。
主要参考文献
[1]姚世全.信息系统工程监理基础教程[M].北京:中国标准出版社,
2006.
[2]石柱,杨紫千,苏晓丹,等.军用软件能力成熟度模型及其应用[J].
航天标准化,2003(5):18-24.
[3]漆汉宏.P L C电气控制技术[M].北京:机械工业出版社,2012.
信息技术与应用
可进行填补咱4]。
基于上述情况,Shao,et.a l提出了基于K最近邻局部约束
稀疏表示的分类属性缺失数据填补方法CSRimpute(Categorical Sparse Representation imputation)咱5暂。该方法针对分类属性缺失
数据的特点,利用完整数据设计字典,在保留局部结构特征的
同时改善分类属性缺失数据的填补效果。
2C S R i m p u t e算法介绍
CSRimpute算法是在局部约束稀疏表示的基础上,结合K
最近邻算法设计字典,力图解决缺失数据的填补问题。该算
法可以适用于包含一个缺失值或被推广到包含多个缺失值的
数据对象上。为了方便说明,需要定义一些概念如下:
载=[曾,,曾圆,…,曾;,…,曾…]沂悦皂伊灶表示一个包含灶个数据对象
的分类属性数据集。
列向量曾沂悦皂伊1表示第个数据对象:
曾;=[曾;员,曾员圆,…,曾蚤皂]栽沂C™
第蚤个数据对象在第i个属性上的缺失值成为缺失属性
值,记做院载渊躁,蚤)=曾蚤C/)=x/=“*”。分类数据集共有皂个属性行,
每个属性行分别有糟.种取值,且糟员垣糟圆垣—+c,,,=M。
该算法的具体过程如下:
输人:含有缺失数据对象的数据矩阵载=[曾员,曾圆,…,曾蚤,…,
曾灶]沂悦皂伊";正则化约束参数姿,,姿2>0;字典包含原子数据对象数
量噪;
输出,填补后的完整数据集载;
过程:
(1) 将原始数据集载转化为二进制矩阵粤。在曾蚤的第j'个 分类属性行所对应的糟,行中,仅在代表其取值的属性行取值为
1,其他取值为0;若属性缺失,则糟,行取值均为0;
(2) 将粤划分为粤=[粤悦粤酝]两部分,其中完整数据集粤..=
[葬员,葬2,…,葬糟,…,葬灶糟]沂悦皂伊灶糟,缺失数据集粤酝=[葬,,,'垣1,葬,,,'垣2,…,葬皂,
…,葬…,.+…,,,]沂悦皂伊灶皂,假设粤中前灶糟个数据对象都是完整的;
(3) 应用运最近邻作为字典构造方法,针对粤酝中的每个缺
失数据对象葬皂分别构造字典粤晕(,,,)=[葬晕(1),…,葬晕渊噪),…,葬晕(运)]沂
悦酝伊运,重复步骤4至步骤7;(4) 将葬皂和粤晕(皂)在所有葬皂非缺失属性上进行投影得到葬皂*
和粤晕(皂)*,即去除葬皂中的所有的缺失属性并在粤晕(皂)中移除相应
的属性;
(5) 计算葬皂*和粤晕(皂)*中每个数据对象的欧几里得距离,根
据公式,
凿蚤=exp|凿蚤泽贼滓赠,遭蚤))
得到距离向量凿;
(6) 针对缺失数据集粤酝中的每个缺失数据对象葬皂求解公式,
琢:=argmin||«'..—)*琢m ||2+A|||d已琢m ||,+姿2
U r n
||d已am \12
对应的局部约束稀疏表示优化问题,得到稀疏表示系数向
量琢皂*沂砸运。其中稀疏表示系数向量a m*=[a m”V",a/,…,琢皂运*]
栽沂砸运为葬;*在粤晕(皂)*的重构表示;凿为新投影后的缺失数据对象
曾/与投影后的字典月*中每个原子数据对象的距离构成的向
量。
(7) 针对曾蚤包含的每一个缺失属性值曾/,对于它在重构数
据蓻中对应的糟个重构值,选取其中最大重构值在原始分类
数据集载中所对应的属性值进行填补。其中6蓻=移ak aj';
k = 1
(8) 算法结束,输出填补后的数据矩阵载。
3实验分析
本实验从U C I机器学习数据库中选择了 4个经典的分类
属性数据集(Soybean,ZOO,SPECT H eart,Chess)。为了将原始数
据值和填补估计值进行对比,针对每个数据集,首先删除其中
包含缺失属性值的数据对象,得到完整数据集。然后,随机选取
数据集中的部分数据对象构成缺失对象数据集,对于每个被选
取的数据对象,从中随机选择一定数量的属性值,人为地将这
些属性值设定为缺失属性值。
设计本试验的目的是测试正则化参数造,和造2的敏感性。为
了便于操作,将缺失属性比率和缺失数据集的比率均设定为
20豫。对于设定的正则化参数,分别选取它们的2灶倍计算缺失
填补正确率,结果如表1尧表5所示。
表1S o y b e a n正则化参数变化下的填补准确率
姿2
1/81/41/212
1/40.863 130.864 880.864 880.866 380.861 25
1/20.864 250.866 130.868 630.868 130.862 13
10.866 380.866 630.866 250.866 380.860 50
20.862 880.862 750.863 130.862 000.857 00
40.860 000.860 630.860 630.860 000.857 38
信息技术与应用
表2Z O O正则化参数变化下的填补准确率
a2
姿员1/21248 1/320.909 380.915 000.911 880.905 000.895 63 1/160.910 000.915 000.911 250.905 000.895 00 1/80.911 880.913 130.912 500.905 000.895 00 1/40.909 380.911 880.911 880.905 000.895 00 1/20.908 750.911 880.910 000.904 380.895 00
表3S P E C T H e a r t正则化参数变化下的填补准确率
姿2
姿’
1/21248 1/320.799 620.804 150.812 080.808 870.789 62 1/160.798 870.804 150.812 080.808 870.789 62 1/80.797 920.803 960.812 080.808 870.789 62 1/40.793 960.804 150.811 890.808 870.789 62 1/20.789 060.802 640.811 320.809 620.790 19
表4C h e s s正则化参数变化下的填补准确率
姿2
姿’
124816 1/1280.880 920.884 520.884 690.879 660.875 45 1/640.880 340.884 530.884 680.879 660.875 45 1/320.879 070.884 460.884 690.879 660.875 45 1/160.877 900.883 840.884 590.879 690.875 47 1/80.877 110.882 730.884 240.879 580.875 40
表5各数据集下的填补准确率离散程度
极差标准差最大值最小值Soybean0.011 630.003 160.868 630.857 00 ZOO0.020 000.006 740.915 000.895 00 SPECT Heart0.023 010.008 580.812 070.789 06 Chess0.009 290.003 530.884 690.875 40
从前3张表中可以看出,在4个数据集中,无论如何变化,算法的填补正确率相对都比较平稳,没有出现大幅度增加或减少的情况。两个正则化参数姿员和的变化使得CSRimpute的填补效果略有浮动,但浮动的范围较小,并未过度偏离最优结果。最后的统计表显示,Soybean和C hess数据集的极差和标准差较小,而Z00和SPECT H eart数据集的极差和标准差相对较大。这在一定程度上说明正则化参数姿员和对填补效果的影响在较大数据集的情况下反而较小,这是因为在较大数据集中能够更容易到与目标数据对象更相似的数据,从而能够得到更加理想的稀疏表示。4结论
本文针对CSRimpute算法中的正则化参数该如何选择的角度出发,通过4个数据集验证分析了姿员和姿2对算法填补效果的影响。实验结果表明,缺失数据的填补效果随着正则化参数在最优值附近较为平稳的变化,即CSRimpute算法受正则化参数姿员和变化的影响并不明显,在实际应用中能够比较容易确定。
主要参考文献
咱 1 ]Wright 允,Yang A Y,Ganesli 粤,et al. Robust Face Recognition via
2016年12月第19卷第23期
中国管理信息化
China Management Informationization
Dec.,2016
Vol.19,No.23
一种基于WEBGL技术的三维场景数据格式赵志宇\吕维新\李士涛\王艳涛2袁陈仁星2
(1.云南电网有限责任公司,昆明650217;
2.昆明能讯科技有限责任公司,昆明650217)
[摘要]针对W EBG L技术规范、电力G IS系统的特点提出了一种新的三维场景数据格式,该格式有以下特点:对w e b环 境友好、高可扩展性、支持多图层、支持L O D尧遵循REST A P I规范。
[关键词]对w e b环境友好;高可扩展性;L O D;多图层R E S T;API
d o i: 10. 3969/j.i s s n. 1673 - 0194. 2016. 23. 085
[中图分类号]G642.0 [文献标识码]A[文章编号]1673-0194(2016)23-0162-04
0概述
随着互联网的发展、各大浏览器产商对W E B G L技术规范
支持,在W E B浏览器上就可以实现三维场景交互,电力G I S系
统也从传统的三维地图也从传统的C/S模式逐步变成B/S模式,本文针对W E B G L技术规范、电力G I S系统的特点提出了一
种新的三维场景数据格式,该格式有以下特点院
(1)对W E B环境友好,传输方便、可在浏览器端快速解码、可按需请求资源;
(2)可扩展,可持续扩展,以便支持新的数据类型;
(3)支持多图层;
(4) 遵循R E S T A P I规范;
(5)L0D。
1数据文件包含内容
该格式的一份完整的数据包含了:元数据、图层、矢量瓦片、地图要素、符号等内容以下为信息内容。
(1)该格式的场景数据包含的元数据通过M e ta I n f o类来实现,该类型包含属性如表1所示。
[收稿日期]2016-08-31
Sparse Representation [J]. Pattern Analysis and Machine Intelligence,
IEEE Transactions on,2009,31(2):210—227.
[2]Candes E J,Romberg J袁Tao T. Robust Uncertainty Principles:Exact
Signal Reconstruction from Highly Incomplete Frequency Information
[J]. Information Theory,IEEE Transactions on,2006,52(2) :489—509.
[3]Duan C H,Chiang C K,Lai S H. Face Verification with Local Sparse
Representation [J]. Signal Processing Letters,IE E E,2013,20 (2):
177—180.
表1M e t a l n f o类属性
名称数据类型描述n a m e S trin g名称
d e s c rip tio n s S trin g描述信息
la y e rs A rra y[0.灶]包含的图层列表
V e sio n S trin g版本号
通过以上属性可以获取初步获得该文件包含的场景数据信息,版本号标识当前格式的版本,l a y e r s属性为包含的图层
I D号数组,通过该值可以进一步获取对应图层的信息。
(2)场景包含的图层通过L a y e r类来实现,包含以下属性如表2所示。
表2L a y e r类属性
名称数据类型描述
L a y e rid in t图层编号
L a y e rN a m e S trin g图层名称
L ay erIn fo S trin g对图层进行描述
M a x scale d o u b le最大比例尺
M in sc a le d o u b le最小比例尺
正则化残差
V e sio n S trin g版本号
[4]S hekhar S,Patel V M,Nasrabadi N M,et al. Joint Sparse
Representation for Robust Multimodal Biometrics Recognition [J].
Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(1):113—126.
[5] Shao X,Wu S,Feng X,et al. Categorical Missing Data Imputation
Approach via Sparse Representation[J]. International Journal of Services Technology and Management,2016,22(1).

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。