186 •电子技术与软件工程 Electronic Technology & Software Engineering
数据库技术
• Data Base Technique
●基金项目:基于步态触觉特征的身份识别(201810372002)资助。
【关键词】多标记学习 模糊互信息 Lasso 算法 特征选择
多标记学习广泛应用于机器学习、人工智能等方面。在多标记学习中,数据集往往具有高维性和高冗余性等特点,从而导致维数灾难。特征选择作为一种有效的降维方式,其通过删除冗余或不相关特征来提高分类模型精度的目的。
目前,众多学者已提出多种效果较优的特征选择算法。例如Lee 等提出了基于多变量互信息的多标记特征选择算法(PMU )。Lin 等提出了基于邻域互信息的多标记特征选择算法。
然而,上述特征选择算法在选择特征子集时都有计算开销过大的问题。为解决该问题,近年来,一种基于线性回归模型的降维方法-Lasso 算法,其因高效的性能在特征选择领域得到了广泛的关注。Lasso 通过对变量进行选择和压缩来降低原始特征空间的维度,该算法的基本思想是在构建线性回归模型时,其回归系
数绝对值之和小于一个阈值的约束条件下,使绝对值较小的回归系数自动压缩为0,从而得到可解释的模型。另外,在常见的特征选择算法中,主要利用传统熵方法来判断特征与标记空间之间的相关性。但传统信息熵不具有补的性质,因此,用模糊信息替代传统信息熵。在选择特征子集的过程中,为了提高分类性能的同时并缩减算法计算开销过大的问题,本文首先利用Lasso 算法对特征空间降维,求解出每个特征在每个标记下的回归系数,系数为0所对应的特征都视其为冗余特征并将其删除,得出新的特征空间。然后结合模糊信息熵对新的特征空间中所有特征分别计算其与标记
基于Lasso 和模糊互信息多标记特征选择算法
文/孟金彪 钱萌 李存志 翟静波
空间的模糊互信息,根据模糊互信息的大小对
特征依次进行排序,得出最终特征子集。通过实验结果表明本文算法是有效的。
1 模糊信息熵
定义1假设样本空间的描述记为论域U ,论域U 可根据某种特征属性进行划分,假设根据特征属性
对论域U 进行划分记,则模糊信息熵定
义如下:
(1)
其中E(X)为模糊熵,公式(2)中
表
示在论域U 中等价类X i 的概率,
表示在论域U 中的X i 的互补概率。定义2
类似的,模糊互信息定义为:
(2)
2 结合Lasso与模糊互信息的特征选择算法
2.1 基于Lasso算法的特征降维
Lasso 算法是一种同时进行特征选择和正则化的线性回归分析方法,其基本思想是在回归系数绝对值之和小于一个阈值的条件下,使残差平方和最小化,将相关性较低的变量的系数压缩为0,然后删除这些特征变量,从而达到降低特征空间维度的目的。另外,Lasso 算法还能有效的防止过拟合问题。针对多标记学习,Lasso 构造的函数如下:
(3)
式(3)中,
是控制稀疏矩阵的参数,Lasso 回归是一个
凸优化问题,但由于其是通过1范式构造的惩罚函数,因此稀疏矩阵不能直接求解。本论文中,将用交替方向乘子法(ADMM )来将式(3)转换为2个子问题求解,式(3)可以利用拉格朗日形式
重新构造为:
(4)
其中,F 是拉格朗日乘子矩阵,ADMM 通过迭代以下公式来优化式(4):
(5)
(6) (7)
通过将式(4)转化为求解式(5)和式(6)2个子问题,式(4)可以简单的通过岭回归来解决,式(6)可通过软阈值算子求得,收敛后,可通过H 求得W 。求得稀疏矩阵W 后,
出其中,在
原特征空间中删除第i 个特征达到降低特征空间维度的目的。
2.2 基于Lasso和模糊互信息多标记特征选择算法
在本文所提出的结合Lasso 与模糊互信息的特征选择算法中,利用Lasso 算法快速有效
的删除冗余特征达到维度约简的目的。为防止过拟合,Lasso 算法通过采用正则化方法自动削弱不重要的特征变量,再结合模糊互信息这种度量方式来对维度约简后的特征的重要度进行重新排序。首先,构造一个m×n 的零矩阵,利用公式(3)计算出每个特征在每个标记下
的回归系数,通过回归系数绝对值之和小于一个阈值的约束条件下,使绝对值较小的回归系数自动压缩为0,在矩阵V 中出系数为0所对应的特征视其为冗余特征并将其从原特征空间中删除最终得到一个新的特征空间。然后,在新的特征空间中根据公式(2)计算所有特征与标记空间的模糊互信息,所得的值越大就表示其特征越重要。最后,按照模糊互信息的大小对特征重新排序得到最终的特征子集。
3 实验数据及其结果分析
3.1 实验数据及评价指标
本文采用了Artificial 、Computer 、Education 、Society 、Science 、Business 这6个数据集来验证本文算法的有效性。数据均来自于mulan. sourceforge. net / datasets.html.
本文采取海明损失,1-错误,排位损失,
Data Base Technique •
数据库技术
Electronic Technology & Software Engineering 电子技术与软件工程• 187
<<;下转188页
平均准确率这4个评价指标作为性能评价指标对实验结果的有效性进行验证。3.2 实验结果及分析
实验代码均在Matlab2012b 中运行,对维度约简后的特征空间以ML-kNN 作为分类器进行训练和测试,对比算法有PMU 、MDDM 、MFNMI 。kNN 参数值设定为默认值,即平
滑系数s=1,k=10。Lasso 中两个阈值分别为
,rho=1。表1中 ↑ 表示指标数值越大越好,↓ 表示指标数值越小越好。最佳实验结果
表1:在平均精度上六个特征选择算法的排名(↑)
Methods MDDMspc MDDMproj PMU MFNMI MF-LFMI Artificial 0.49870.49920.50800.50970.5072Computer 0.63370.62780.62710.63340.6358Education 0.55070.52
030.52660.51850.5597Society 0.59520.59280.57580.57600.6039Science 0.44580.44030.44780.45590.4737Business
0.8736
0.8732
0.8693
0.8747
正则化可理解为一种罚函数法0.8736
表2:在海明损失上六个特征选择算法的排名(↓)
Methods MDDMspc MDDMproj PMU MFNMI MF-LFMI Artificial 0.06170.06100.06030.06040.0617Computer 0.04070.04130.04010.04070.0405Education 0.04150.04220.04270.04240.0407Society 0.05510.05630.05690.05670.0541Science 0.03470.03490.03470.03450.0343Business
0.0273
0.0278
0.0279
0.0274
0.0273
表3:在1-错误上六个特征选择算法的排名(↓)
Methods MDDMspc MDDMproj PMU MFNMI MF-LFMI Artificial 0.65900.64630.63000.62470.6463Computer 0.43900.45130.44670.44230.4390Education 0.59430.62470.62270.62930.5753Society 0.44930.45100.47800.46930.4407Science 0.68930.69800.68370.66600.6527Business
0.1257
0.1267
0.1293
0.1244
0.1243
表4:在排位损失上六个特征选择算法的排名(↓)
Methods MDDMspc MDDMproj PMU MFNMI MF-LFMI Artificial 0.15270.15390.15260.15390.1518Computer 0.09240.09210.09480.09180.0913Education 0.08900.09730.09580.09810.0876Society 0.14150.14280.14750.14860.1384Science 0.14010.14460.14320.14110.1329Business
0.0414
0.0421
0.0436
0.0414
0.0422
188 •电子技术与软件工程 Electronic Technology & Software Engineering
数据库技术
• Data Base Technique
【关键词】决策树 实验室管理 预警 大数据
传统高校实验室信息化管理系统需要较多的人工参与,效率低下,难以适应现代化高校实验室的发展。为此,建设智能化、现代化的高校实验室管理平台已成为大势所趋。国内外已存在大量相关的研究。其中,大数据技术拥有四个特征:价值高、体量大、速度快、种
决策树在高校实验室智能管理平台的应用
文/张慧宁
类多。基于这四个特征,必须对数据进行深度
数据挖掘,以得到我们想要的信息。数据挖掘是创建数据挖掘模型的一组试探法和计算方法,通过对提供的数据进行分析,查特定类型的模式和趋势,最终形成模型。主要包括分类、聚类、关联规则和预测模型。决策树是一类常用的大数据挖掘方法,适用于从一组不相关的数据集合中提取出一系列相关规则。
本文依托于大数据技术和决策树模型,构建高效智能的实验室管理平台,可减少实验室可能存在的风险的同时,能极大降低实验室管理员负担。
1 总体功能概要
平台功能以预测为核心,包括:故障预警、
防火预警和防盗预警等功能,功能介绍如下。1.1 设备智能故障预警功能
实验室历年积累了大量设备数据,将这些数据和设备生产商提供的参数数据,输入到
计算层的大数据计算集中,进行深度数据挖掘,从而建立设备运行故障模型。通过传感器等设备获取设备的运行时间、运行负载等数据,输入到计算层,计算得出设备运行信息,从而判断设备是否出现故障,进而智能通知实验室设备维修人员,实现设备的故障预警。1.2 智能防火预警功能
防火预警功能,从公开数据等渠道获取实验室各类可燃物燃点信息,输入到平台,由平台基于决策树模型进行数据挖掘,建立实验室可燃物档案。后由,传感器定时获取设备温度等信息,经过计算层计算,与已经建立的可燃物档案进行比对。一旦数据超过阈值,即可通知实验室管理员进行处理,或智能联系保卫部门进行处理。1.3 智能防盗预警功能
由于实验室积累的盗窃行为数据较少,平台通过网络爬虫获取大量各类盗窃行为数据。
用黑体字表示。各个数据集使用Lasso 算法后的特征大小分别为339,437,353,409,382,330,所有算法的特征子集大小都与Lasso 算法所选的特征子集大小相等。
实验结果分析:
(1)由表2可发现:在6个数据集上,本文提出的算法MF-LFMI 在4个数据集上Average Precision 值最大,即性能最优。
(2)表3实验结果表明:有4个数据集的海明损失值取得最小值。Computer 数据集在本文算法NMI-LMF 上取得的Hamming Loss 值排在第2位,与最优的Hamming Loss 值仅相差0.0004,性能较优。其它评价指标结论类似,略。
4 结束语
本文引入Lasso 算法,通过其选择出与标记空间强相关的特征而降低特征维度以解决计算开销过大的问题。另外,为弥补传统信息熵不具有补的性质,用模糊互信息替代传统信息熵评估候选特征的重要度。不足之处在于利用模糊互信息对降维后的特征进行重要度排序时
并未考虑特征之间依赖性,这将是本文下一步的研究方向。
参考文献
[1]Lee J, Kim D W. Feature selection
for multi-label classification u s i n g m u l t i v a r i a t e m u t u a l information [J]. Pattern Recognition L e t t e r s (S 0167-8655), 2013, 34(3):349-357.
[2]Lin Y, Hu Q, Liu J, et al. Multi-label feature selection based on neighborhood mutual information [J]. Applied Soft Computing (S1568-4946), 2016, 38(C):244-256.
[3]程玉胜,张佑生,胡学钢.基于边界域的
知识粗糙熵与粗集粗糙熵[J].系统仿真学报,2007,19(09):2008-2011.
[4]Sun L, Kudo M, Kimura K. Multi-label
classification with meta-label-specific features[C]// International Conference on Pattern Recognition.
IEEE, 2017:1612-1617.
[5]Z h a n g Y , Z h o u Z H. M u l t i -L a b e l D i m e n s i o n a l i t y R e d u c t i o n
via Dependence Maximization[C]//AAAI Conference on Artificial Intelligence, AAAI 2008, Chicago, Illinois, Usa, July. DBLP, 2008:1503-1505.
[6]Zhang M L, Zhou Z H. ML-KNN: A lazy
learning approach to multi-label learning [J]. Pattern Recognition (S0031-3203), 2007, 40(7):2038-2048.
作者简介
孟金彪(1993-),男,安徽省亳州市人。硕士研究生。研究方向为数据挖掘。
作者单位
安庆师范大学计算机与信息学院 安徽省安庆市 246011
<<;上接187页
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论