————————————————————————————————————————————————基于对偶图正则化的多层概念分解算法
作者张显,叶军
机构南京邮电大学理学院
基金项目江苏省自然科学基金资助项目(BK20150867);南京邮电大学国家自然科学基金孵化资助项目(NY215125)
预排期卷《计算机应用研究》2019年第36卷第3期
摘要为了进一步挖掘数据间的隐藏信息,在多层概念分解(MCF)算法的框架下,考虑每一层分解下的数据流形和特征流形,提出了一种基于对偶图正则化的多层概念分解(DGMCF)算法。该算
法通过对数据的逐层分解,以分层的方式学习,并在每一层分解数据中构建数据空间和特征
属性空间的拉普拉斯图,用于反映数据流形和特征流形的多元几何结构信息,从而能够更好
地从复杂数据中提取出更有效的特征。采用交替迭代的方法求解算法的目标函数并证明了算
法的收敛性。通过在三个真实数据库(TDT2、PIE、COIL20) 上的实验表明,该方法在数据的
聚类表示效果方面优于其他方法。
关键词概念分解;多层分解;对偶回归;流形学习;聚类
作者简介张显(1994-),男,硕士研究生,主要研究方向为模式识别、人脸识别、机器学习、计算机视觉;叶军(1981-),男,副教授,博士,主要研究方向为模式识别、机器学习、图像处理
(yj8422092@163).
中图分类号TP391
访问地址www.arocmag/article/02-2019-03-032.html
发布日期2018年4月17日
引用格式张显, 叶军. 基于对偶图正则化的多层概念分解算法[J/OL]. 2019, 36(3). [2018-04-17].
www.arocmag/article/02-2019-03-032.html.
第36卷第3期 计算机应用研究
V ol. 36 No. 3 优先出版
Application Research of Computers
Online Publication
——————————
基金项目:江苏省自然科学基金资助项目(BK20150867);南京邮电大学国家自然科学基金孵化资助项目(NY215125)
作者简介:张显(1994-),男,硕士研究生,主要研究方向为模式识别、人脸识别、机器学习、计算机视觉;叶军(1981-),男,副教授,博士,主要研究方向为模式识别、机器学习、图像处理(yj8422092@163 ).
基于对偶图正则化的多层概念分解算法 *
张 显,叶 军
(南京邮电大学 理学院, 南京 210023)
摘 要:摘 要:为了进一步挖掘数据间的隐藏信息,在多层概念分解(MCF)算法的框架下,考虑每一层分解下的数据流形和特征流形,提出了一种基于对偶图正则化的多层概念分解(DGMCF)算法。该算法通过对数据的逐层分解,以分层的方式学习,并在每一层分解数据中构建数据空间和特征属性空间的拉普拉斯图,用于反映数据流形和特征流形的多元几何结构信息,从而能够更好地从复杂数据中提取出更有效的特征。采用交替迭代的方法求解算法的目标函数并证明了算法的收敛性。通过在三个真实数据库(TDT2、PIE 、COIL20) 上的实验表明,该方法在数据的聚类表示效果方面优于其他方法。
关键词:概念分解;多层分解;对偶回归;流形学习;聚类 中图分类号:TP391  doi: 10.3969/j.issn.1001-3695.2017.10.0935
Dual-graph regularized multilayer concept factorization
Zhang Xian, Ye Jun
(School  of  Natural  Sciences , Nanjing  University  of  Posts  & Telecommunications , Nanjing  210023, China )
Abstract: In order to further excavate the hidden information between data, under the framework of multilayer concept factorization (MCF) algorithm, this paper proposed a novel algorithm called dual-graph regularized multilayer concept factorization (DGMCF) algorithm, which encoded the geometric structure information of data and feature spaces by constructing two Laplacian regularize term in each layer factorization, respectively. By this way, the proposed method could learn features in a hierarchical manner, and thus provided a better chance for learning meaningful features from the complex data. Moreover, it developed the iterative updating optimization scheme for DHCF, and also provided the convergence proof of the optimization scheme. Experimental results on TDT2 document datasets, PIE and COIL20 image datasets demonstrate the effectiveness of our proposed method.
Key Words: CF; multilayer factorization; dual regularized; manifold learning; clustering
0 引言
如何从海量的高维数据中挖掘出隐藏信息和有效数据,已
成为现今机器学习、数据挖掘、社会网络分析等领域的研究热点[1
~3]
。合适的数据表示方式能够挖掘出数据中的潜在结构,有
利于数据进一步的处理。目前,矩阵分解方法作为一种有效的数据处理方式引起了许多研究者的关注。常用的矩阵分解算法包括奇异值分解(singular value decomposition, SVD)、非负矩阵分解(nonnegative matrix factorization, NMF)[4]和概念分解(concept factorization, CF)[5]等。
在NMF 和CF 的框架下,已有许多文献对其进行了拓展。结合标签信息,
Liu 等人[6]提出了半监督的矩阵分解方法,一种是约束非负矩阵分解(constrained NMF, CNMF),另一种是约束概念分解(constrained CF, CCF)[7]。这两种方法都是将标签信息
作为硬约束分别嵌入在NMF 和CF 框架中的。将流形学习的思想[8
~11]
融入至NMF 和CF 方法中,文献[12]提出了图正则的非
负矩阵分解(graph regularized NMF, GNMF )算法,文献[13]提出了局部连续概念分解算法(locally consistent CF, LCCF),这两种方法在文本聚类及人脸识别等应用中均取得了不错的效果。
然而以上方法均是对数据进行单层分解。已有文献表明
[14,15]
,对数据进行单层分解很难获取原始数据中隐藏的层次信
息,从而不能更好地对数据进行表示。因此,X.Li et al.[16]提出了多层非负矩阵分解(Multilayer NMF, MNMF)算法,该方法能更好的从混合信号中对原信号进行分离。 在CF 的框架下, Li 等人[16]提出了多层概念分解(multilayer CF, MCF),通过利用多层模型,
MCF 方法能够从高维数据中获取数据隐藏的层次信息。考虑到数据的几何结构信息,最近Li 等人[17]在MCF 方法的基础上,在每一层概念分解中结合流形学习的思想,提出了
图回归的多层概念分解(graph regularized multilayer CF, GMCF)。 GMCF 方法不仅使用了多层结构,而且还考虑了每个数据层的流形几何结构,的确有助于挖掘数据最本质的信息。
GNMF 、 LCCF 和GMCF 方法都利用了数据的空间结构信息,它们可以有效地提高学习的质量,然而这些工作只考虑了数据空间的分布结构,没有利用特征属性空间的结构信息。最近, Shang 和Ye 等人
[18,19]
分别在非负矩阵分解和概念分解框
架下提出了同时考虑了数据流形和特征流形的几何结构的双图正则化非负矩阵分解(Graph Dual regularization Nonnegative Matrix Factorization, DNMF)算法和双图正则化概念分解(graph dual regularization concept factorization, GCF)算法,均取得了不错的效果。这也进一步说明了不但数据空间的几何结构信息可以有效地提高学习的质量,同时特征属性空间的几何结构信息也能对学习的质量起到辅助作用。
因此,为了进一步挖掘数据间的隐藏信息,同时利用好数据的几何结构信息,在多层概念分解(MCF)算法的框架下,考虑每一层分解下的数据流形和特征流形,提出了一种基于对偶图正则化的多层概念分解算法(dual graph regularized multilayer concept factorization ,DGMCF)。 该算法在每一层分别在数据空间和特征空间构建图来反映它们各自的分布流形几何结构信息,以此来获得数据的几何结构信息。建立基于对偶图正则化的多层概念分解模型,推导出该算法的交替迭代更新规则,给出该算法的收敛性证明,实验结果表明了算法的有效性和准确性。
1 相关工作
1.1 概念分解(CF)算法
给定非负矩阵[]1,,M N
N ⨯=∈X x x R
,X 的每一列代表一
个样本。
CF 算法的目标是寻求两个非负矩阵[]N K jk =w ⨯∈W R ,[]N K jk =v ⨯∈V R ,其中{}min ,K M N ,
使其满足T ≈X XWV 。CF 的目标函数可表示为
2min :..,0T
F
s t =-≥CF W,V
J X XWV W V  (1)
相应的乘积更新迭代规则在文献[5]中已详细地给出。 1.2 多层概念分解(MCF)算法
面对一些复杂数据,特别是病态数据, Li 等人[16]在概念分解的基础上采用分层的方法,逐层地对数据进行概念分解,提出了多层概念分解(MCF)算法。MCF 的思想是:记11X =XWV 为第1层分解,将1V 作为初始数据进行第二层分解得1122V =VW V ,依此类推,得到第L 层的概念分解11L L L L --V =V W V ,则最终1122
L L X =XWVW V W V ,且1122
L W =WVW V W ,L V =V 。
多层概念分解的目标函数可表示为
2min :..,0l l
T
l l l l
l l F
s t =-≥MCF W ,V J X X WV W V
(2)
相应的乘积更新迭代规则在文献[5]中已详细地给出。
1.3 双图正则化概念分解(GCF)算法
Ye 等人[19]在概念分解算法的基础上同时考虑了数据和特征属性的几何结构信息, 提出了双图正则化的概念分解算法。其目标函数可表示为
2
min :Tr()Tr()
,0
< αβ=-++≥V W T
T T GCF J X XWV V L V W L W W,V
W V (3)其中:
()T T ==-=-U W W U W U L X L X X D S X D S
针对式(3)的乘积更新迭代规则在文献[16]中已详细地给出。
2 基于对偶图正则化的多层概念分解(DGMCF)
2.1 构建对偶图正则项
最近的研究表明:不仅观测到的数据分布在一个低维子流形上,称之为数据流形;而且数据的特征也分布在一个低维子流形上,称之为特征流形[18]。在对数据进行概念分解的过程中,由于每一层数据分解后均涉及数据流形及特征流形的几何结构信息获取,所以在每一层分别用两个图来刻画数据流形和特征流形的几何结构,即数据图和特征图。
第l 层分解下数据图构造
设第l 层分解下图的顶点集合为数据集{}1(),
,()l N l x x ,
若第j 个样本与第s 个样本互为近邻点,则第j 个样本与第s 个样本之间存在一条边,其权值为()V js l s ,对应的邻域矩阵:
()1,()();
(),1,,0,.s l p j l V js l if N j s N otherwise ⎧∈⎪==⎨
⎪⎩
x x S
(4)
其中:()
()p j l N x 表示第l 层分解下j x 的p 最近邻数据样本集。此时在第l 层分解下数据图的拉普拉斯矩阵可表示为
()V V V l l l D S =-L 。令1(),
,()T
T
T l l N l ⎡⎤=⎣⎦
V v v 为待求的第l 层分解下的低维数据表示,则其表示的平滑度为
()2
1,1
1
()()()2
Tr()Tr()Tr(())
N
V js l
j l s l
l j s T V T V l l l l l l T l V l l ==-=-=∑S v v V D V V S V V L V  (5)
第l 层分解下特征图构造
类似地,在第l 层分解下将图的顶点集合定义为特征集
{}
1(),
,()T T l M l x x ,对应的领域矩阵定义如下:
()1,()();
(),1,
,0,.T T s l p j l W
js l
if N j s M otherwise ⎧∈⎪==⎨⎪⎩x x S
(6)
可得到在第l 层分解下特征图的拉普拉斯矩阵表示为()=()()U U V V
W l U l l l l l =-=-T T l l l l X X X S X S L L D D ,令
1(),,()T
T
T l l M l ⎡⎤=⎣⎦
W w w 为待求的低维数据表示,则相应的平滑度为
()22,1
1
()()()
2
Tr()Tr()Tr(())
M
W T T js l
j l
s l
l
j s T W T W l l l l l l T l W l l ==-=-=∑S
w w W D W W S W W L W
(7)
2.2 构建DGMCF 算法的目标函数
为了同时考虑样本的数据流形和特征流形的几何结构信息,在MCF 算法的目标函数中添加基于数据图和特征图的正则项,得到DGMCF 算法的目标函数为
(
)(
)
2
12min :..,0
T
l l l l
l
l
l l s t αβ=-++≥ l l
DGMCF W ,  V J X X WV W V  (8)
其中:0,0αβ≥≥为正则化参数。 2.3 DGMCF 目标函数的求解
DGMCF 算法中的目标函数DGMCF J 是关于两个变量l W 和l
V 的非凸函数,因此求其全局最优解是不现实的。利用交替迭代法可得到问题的局部最优解。记T l l l K X X =,则目标函数DGMCF J 可重写为
()()()()
()
()()()()Tr[()()]
Tr Tr Tr 2+Tr Tr T T
l l l l l l l l T
T
l
V l l W l l l T T T
l l l l l l l l l T T l V l l W l l l X X WV X X WV K VW K VW K WV αβαβ=--++=-++T DGMCF J V L V W L W V L V W L W
(9)
令[]l l jk ψ=Ψ,[]l l jk ϕ=Φ为约束0l ≥W 和0l ≥V 对应的拉格朗日乘子,则式(9)的拉格朗日函数L 为
()
()()()()Tr 2+Tr Tr Tr()Tr()
T
T
T
l l l l l l l l l
T
T
l
V l l W l l l
T l l l l L K VW K VW K WV W V αβ=-++++V L V W L W ΨΦ
(10)
对函数L 分别关于l W 和l V 求偏导,由KKT 最优性条件可以得到DGMCF 算法的更新迭代公式为  ()()(1)
()
jk jk (())(())W
t t l l l l l l T
W
jk jk
l l l l l l K V S W w w K WV V D W ββ++←+
(11)
()()(1)
()
jk
jk
(())(())V t t l l l l l l T V jk
jk
l l l l l l v v αα++←+K W V V W K W V S D  (12)
DGMCF 方法将在迭代次数达到最大时停止或在停止准则
1t t ε--<DGMCF DGMCF J J 满足时停止迭代。
2.4 DGMCF 算法的收敛性证明
定义1 当满足条件:()(),G w w F w '≥和()(),G w w F w =时,
(),G w w '为()F w 的一个辅助函数。
引理 1 若G 为F 的辅助函数,则函数F 在如下的更新公式下为单调下降的。
(1)()arg min (,)K K w
w G w w +=
(13)
证明
(1)(1)()()()()()(,)(,)()K K K K K K F w G w w G w w F w ++≤≤=.
令()l ab w 为矩阵l W 的元素,()l ab w F 为目标函数DGMCF J 中仅与()l ab w 元素有关的项,即
()()()2
Tr l ab
T
T l l l l
l W l w l F β=-+X X WV W L W
(14)
考虑到算法是基于元素运算的,故首先证明()l ab w F 在式(11)下为单调下降的。事实上由于:
()()()
222l ab
T
l l l l l l W l w l ab
F β'=-++K V K WV V L W
()()()()()22l
ab
T l l l W w
l bb aa
F β''=+aa K V V L  引理 2 函数()()(,)t l l ab
G w w 为()l ab w F 的辅助函数。
()()()()()()()()()()
()()
()
2
()
(,)()
()()
()(())()l ab
l ab
t t l l l w ab ab t t l l l w ab ab T W
t l l l l ab l l ab
l l t ab l ab
G w w F w F w w w w w w β='+-++
-K WV V D W  (15)
证明 由定义1,显然()(,)()l ab l l l w G w w F w =。令()()l ab l w F w 的Taylor 展开序列为
()()()()()()()()()()()()()()
()2
()()()()
[]()
l l l ab
ab
ab
t t t l l l l l w w w ab ab ab t T
l l l W l l aa l ab
bb
ab
F w F w F w w w w w β'=+-++-K V V L
由式(15)知,证明()()()
(,)()l
ab
t l l l w ab G w w F w ≥等价于证明:
()
()()()
()
(())()()T
W l
l l
l l l ab
ab
t l ab
T l aa l l bb W l aa
w ββ+≥+K WV V D W K V V L
(16)
事实上:
()()()()
1
()k
T T T l l l l ab l l l l l l l l ai ab ib
bb
i ==≥∑K W V V K W V V K W V V
()()()()()()()()
1
k
t t T T l l l l l l l l ai ib ab aa bb
bb
i w w =≥≥∑K V V K V V  且
()()()()()()()
1
()()
(())(())(())(()())()M
t t W
W W l l ab l aj l l aa l jb ab
j t t W W l l aa l W aa l ab l ab
w w w w βββββ==≥≥-=∑D W D D D S L
因此,可知式(15)成立,即()()()
(,)()l
ab
t l l l w ab G w w F w ≥。
引理3 函数()()(,)t l l ab
G v v 为()l ab v F 的辅助函数。
()()()()()()()()()()
()
()
2
(,)()()()
()(())()ab l ab
t t t t l l l v l l l v ab ab ab ab T V
t l l l l ab l l ab
l l ab l ab
G v v F v F v v v v v v α'=+-++
-VW K W D V  (17)
其中:()()2
Tr()l ab
T
T l l l l
l V l v
l F α=-+X X WV V L V 。
引理3的证明过程同引理2的证明,限于篇幅,此处具体证明参见引理2。
定理1 对于给定的数据X 及任意的0,0l l ≥≥W V ,提出的交替迭代更新规则式(11)和(12) 可使得目标函数(,)l l DGMCF J W V 单调下降。
证明 由引理2,3,将式(15) (17)分别代入式(13)得
()()()()()()()
(1)
()()
()
()
2()2(())(())(())l ab
t l w t t t ab l l l T W
ab
ab ab
l l l l ab l l ab W t l l l l ab l T W
ab
l l l l l l ab
F w w w w w βββ+'=-+=+K WV V D W K V +S W K WV V D W (18)
()()()()()()()
(1)
()()
()
()
2()2(())(())(())l ab
t l v t t t ab l l l T V
ab
ab ab
l l l l ab l l ab V t l l l l ab l T V
ab
l l l l l l ab
F v v v v v ααα+'=-++=+VW K W D V K W S V VW K W D V (19)
由于式(15) (17)分别为()l ab w F 及()l ab v F 的辅助函数,所以()l ab
w F 及()l ab v F 分别在迭代更新式(11)(12)下为单调下降。 2.5 DGMCF 算法的具体步骤
输入:数据集矩阵X 。
1:初始化参数。设定最大迭代次数(IterMax)及误差限ε,设定近邻点参数p 、分解维度K 、正则化参数α和β。
2:记1=X X ,并随机生成非负矩阵W 和V 。 for l =1:L
for t =1: IterMax (t 为迭代次数)
3:计算数据图和特征图的邻接矩阵()V l S 和()W l S 。 4: 计算对角矩阵()V l D 和()W l D 。
5:固定()t l V ,根据式(10)更新l W 得()1t+l W 。
6:固定()1t+l W ,根据式(11)更新l V 得()1t+l
V 。
7:重复步骤2和3,直至终止条件1
t t ε--<DGMCF DGMCF J J 被满
足,停止迭代,并记+1=l l X V ;
8:end for
输出:分解后的矩阵1
L l l==∏W W 和L V =V 。
2.6 DGMCF 算法复杂度分析
为了比较本文所提算法和其他算法的计算复杂度,本文对
CF 、GCF 、GMCF 和DGMCF 算法的计算复杂度进行了比对。
经过t 次迭代更新后,CF 和GCF 算法的计算复杂度分别为()O tN K N M +22和()O N M NM tN K ++222。对于GMCF 和
DGMCF 算法,均对数据进行了L 层的分解,GMCF 算法构建
p 最近邻图的计算复杂度为()O N M N p +22,DGMCF 算法创建数据图和特征图所需的计算复杂度为()O N M NM +22,所以GMCF 和DGMCF 算法总的计算复杂度分别为(())O L N M N p tN K ++222,(())O L N M NM tN K ++222。
3 数值实验
3.1 聚类实验
为了验证本文所提算法的有效性,分别在文本数据库TDT2和图像数据库PIE 、COIL20三个数据集上将所提DGMCF 算法与CF 、LCCF 、MCF 、GMCF 和GCF 算法进行了聚类比较实验。聚类实验中常用准确率(accuracy, ACC)和归一化互信息(normalized mutual information, NMI)[5]作为聚类算法的评价标准。
● TDT2 文本数据库:包含了56类的10 021个文档。 ● PIE 人脸数据库:选择了68人的11 554幅图像,除第38个人164幅图像外,其余人都是170幅图像。本实验中图像的大小为32*32的灰度图像。
● COIL20物体图像数据库:包含了20个物体的1 440幅图像,图像的大小为32*32的灰度图像。
实验中,对于MCF 、GMCF 及DGMCF 方法结合文献[],选择=10L ,并且每一层的最大迭代次数设置为500次。对于LCCF 、GMCF 、GCF 和DGMCF 方法,构造图所需近邻点数p 都设置为5。对不同的
聚类数k (2,
,10)k =,DGMCF 算法与五种相
关的比较算法在三个数据库上20次实验平均的聚类结果如表1~3所示。从表1~3可得到如下的结论:
a) 在TDT2数据库中,本文所提算法比传统CF 算法平均ACC 和NMI 分别提高了11.23%和11.67%,比GCF 算法分别提高了1.94%和2.65%。比GMCF 算法分别提高了2.28%和2.33%。在PIE 数据库中,DGMCF 比CF 算法平均ACC 和NMI 分别提高了13.70%和12.18%,比GCF 算法分别提高了3%和2.45%。比GMCF 算法分别提高了3.49%和2.90%。在COIL20数据库中,DGMCF 比CF 算法平均ACC 和NMI 分别提高了10.93%和13.18%,比GCF 算法分别提高了3.36%和4.02%。比GMCF 算法分别提高了4.02%和7.17%。
b) LCCF 算法利用了数据分布的几何结构信息,所取得的聚类效果比CF 本身要好。这就表明数据分布的几何结构在进行聚类工作时是有效的,特别对图像数据集,它们空间分布具有潜在的流形结构。在三个数据库中GCF 算法所得效果优于LCCF 算法,这是因为GCF 算法不但考虑了数据流形的几何结构信息,而且也利用了特征流形的结构信息。另外,GMCF 算
法所取得的效果优于CF及LCCF,主要原因是该方法通过逐层分解并在每一层结合数据分布的几何结构信息,使得该方法能够学习出更利于数据表示的特征。
正则化 归一化c) 最后本文提出的DGMCF算法比GCF算法的聚类质量更好,其主要原因是DGMCF算法利用了多层分解的思想,在每一层分解中结合数据流形及特征流形的结构信息,能够更加深层次地挖掘出表征数据最本质的特征,尤其是在图像数据集中所取得的聚类效果比文本数据集要更加的明显些。
表1  TDT2 数据库上的聚类实验结果
k
accuracy/% normalized mutual information/% CF LCCF MCF GMCF GCF DGMCF CF LCCF MCF GMCF GCF DGMCF
2 86.1
3 94.23 95.3
4 96.4
5 96.21 97.31 67.28 84.18 83.49 85.38 85.94 87.79
3 79.67 88.53 87.63 89.53 91.0
4 93.56 68.91 78.23 80.12 83.43 81.33 84.63
4 78.29 86.6
5 85.4
6 87.16 89.45 91.28 69.78 77.58 79.94 81.16 80.64 84.46
5 73.63 83.41 83.62 84.87 87.6
6 89.63 64.65 72.04 74.36 76.32 76.56 79.36
6 74.82 81.26 81.4
7 83.47 84.61 85.42 67.86 74.86 75.2
8 77.73 77.41 80.24
7 70.53 79.12 80.11 80.65 80.39 82.25 66.54 73.32 73.36 75.65 75.17 77.55
8 67.04 74.28 74.87 76.75 75.20 78.32 68.31 69.73 70.23 73.43 72.58 75.76
9 67.35 75.18 75.68 75.78 73.28 75.85 69.43 70.42 69.68 71.65 72.20 74.05
10 68.65 69.24 71.56 71.94 71.86 73.54 69.81 69.59 70.45 71.87 71.85 73.76 Avg. 74.01 81.32 81.75 82.96 83.30 85.24 68.06 74.44 75.21 77.40 77.08 79.73
表2  PIE 数据库上的聚类实验结果
k
accuracy/% normalized mutual information/% CF LCCF MCF GMCF GCF DGMCF CF LCCF MCF GMCF GCF DGMCF
2 57.2
3 62.89 66.43 68.35 67.1
4 70.38 48.62 60.43 62.17 64.23 64.59 67.35
3 58.1
4 58.42 63.54 68.46 69.2
5 71.43 49.14 57.85 56.12 60.87 61.78 64.87
4 58.36 60.12 64.02 71.24 71.71 72.57 47.23 53.54 55.4
5 58.63 58.38 61.56
5 58.89 60.61 63.21 71.3
6 72.86 74.4
7 48.54 54.42 54.4
8 57.13 56.36 58.88
6 57.63 59.01 62.53 68.11 69.6
7 73.54 46.13 51.2
8 52.87 53.76 54.78 57.34
7 57.80 59.36 61.15 67.32 70.27 72.08 45.64 48.24 49.38 51.35 51.87 54.23
8 55.97 56.12 60.89 65.76 64.03 69.35 41.29 45.11 46.12 48.56 49.41 51.54
9 57.26 57.45 60.43 64.92 65.39 70.18 39.56 42.56 44.78 47.75 48.35 50.05
10 56.85 57.07 61.32 64.53 64.10 67.45 37.45 40.76 42.35 44.85 45.61 47.38 Avg. 57.57 59.01 62.61 67.78 68.27 71.27 44.84 50.47 51.52 54.12 54.57 57.02
表3 COIL20 数据库上的聚类实验结果
k
accuracy/% normalized mutual information/% CF LCCF MCF GMCF GCF DGMCF CF LCCF MCF GMCF GCF DGMCF
2 89.72 90.74 91.25 91.86 92.48 95.06 71.1
3 74.51 74.89 76.47 80.40 84.28
3 79.3
4 84.22 85.03 86.12 85.36 90.31 63.21 68.69 73.02 75.23 76.3
5 80.45
4 73.04 78.14 79.34 80.28 82.69 87.43 66.38 70.63 72.16 74.26 77.43 81.26
5 71.33 74.4
6 74.12 78.32 79.23 83.3
7 67.67 72.22 70.31 72.65 78.56 82.43
6 75.21 79.59 78.75 80.56 82.90 84.52 65.33 68.81 68.63 70.24 74.89 78.37
7 63.85 70.08 74.57 75.27 73.62 76.87 66.67 70.57 69.89 71.32 75.31 79.29
8 64.64 71.64 72.55 73.24 75.51 78.48 67.28 70.67 71.96 72.35 76.45 80.77
9 62.86 67.87 69.13 71.30 70.02 73.29 66.40 69.86 70.21 71.51 72.71 77.32
10 62.15 65.71 66.69 67.37 68.44 71.16 66.27 68.69 69.28 70.38 70.63 74.76 Avg. 71.35 75.83 76.83 78.26 78.92 82.28 66.70 70.52 71.15 72.71 75.86 79.88

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。