矩阵的秩就是一幅图片矩阵A中,可以用rank(A)个线性无关的特征通过线性组合,基本地还原图片信息。
秩越低表示数据冗余性越大,因为用很少几个基就可以表达所有数据了。相反,秩越大表示数据冗余性越小。
稀疏表示(Sparse Representations)
1.什么是稀疏表示:
用较少的基本信号的线性组合来表达大部分或者全部的原始信号。
其中,这些基本信号被称作原子,是从过完备字典中选出来的;而过完备字典则是由个数超过信号维数的原子聚集而来的。可见,任一信号在不同的原子组下有不同的稀疏表示。
假设我们用一个M*N的矩阵表示数据集X,每一行代表一个样本,每一列代表样本的一个属性,一般而言,该矩阵是稠密的,即大多数元素不为0。 稀疏表示的含义是,寻一个系数矩
阵A(K*N)以及一个字典矩阵B(M*K),使得B*A尽可能的还原X,且A尽可能的稀疏。A便是X的稀疏表示。
在矩阵稀疏表示模型中,把它作为正则化项有什么作用呢?前面说到它是每一行的l2范数之和,在最小化问题中,只有每一行的l2范数都最小总问题才最小。而每一个行范数取得最小的含义是,当行内尽可能多的元素为0时,约束才可能取得最小。而行内尽可能地取0意思是说行稀疏!
综上可以这样解释,不同于l1范数(矩阵元素绝对值之和)的稀疏要求,l21范数还要求行稀疏!
机器学习:规则化参数的同时最小化误差。
最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。
规则化函数有很多选择,一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数。不同的选择对参数的约束不同,去的效果也不同。
论文中都聚集在:零范数、一范数、二范数、迹范数、Frobenius 范数(F-范数)、核范数。
L0范数与L1范数
L0范数是指向量中非0的元素的个数。如果用L0范数来规则化一个参数矩阵W,就是希望W的大部分元素是0。换言之,让参数W是稀疏的。但在论文中看到的都是L1范数去实现稀疏?不用L0呢?
原因:L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。为什么L1范数会使权值稀疏?
回答1: 它是L0范数的最优凸近似。
回答2(更完美的回答):任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。
总结:L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。
稀疏的好处?
(1) 特征选择(Feature Selection)
大家对稀疏规则趋之若鹜的关键原因在于它能够实现特征的自动选择。一般,的大部分元素(也就是特征)都是和最终的输出没有关系或者不提供任何信息,在最小化目标函数的时候考虑的这些额外特征,虽然可以获得更小的训练误差,但是在预测新样本时,这些没用的信息反而会被考虑,从而干扰对正确的预测。
稀疏规则化算子的引入是为了完成特征自动选择,它会学习掉没用的信息特征,也就是把这些特征对应的权值置为0。
(2) 可解释性(InterPretability)
可以让模型更容易解释。
正则化可以产生稀疏权值L2范数
是指向量各元素的平方和然后求平方根。
两个美称:有人把它的回归叫“岭回归”(Ridge Regression),也有人叫它“权值衰减”(weight decay)
强大功效:改善机器学习的重要问题:过拟合。
我们让L2范数的规则项最小,可以使得W的每个元素都很小,都接近于0。但是与L1范数不同,它不会让它等于0 ,而是接近于0。
越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象。?
L2,1范数 结构化稀疏
L2,1范数 结构化稀疏
其中表示矩阵X的第i行,表示矩阵X的第j列。原始矩阵n行t列。根号下平方是对列求和,也就是在同一行中进行操作的,根号部分就相当于一个l2范数,因此可以看出L2,1范数实际是矩阵X的每一行的l2范数之和。在矩阵稀疏表示模型中,把它作为正则化项有什么作用呢?前面说到它是每一行的l2范数之和,在最小化问题中,只有每一行的l2范数都最小总问题才最小。而每一个行范数取得最小的含义是,当行内尽可能多的元素为0时,约束才可能取得最小。而行内尽可能地取0意思是说行稀疏!
实际应用中,根据对应行还是列求,有行稀疏或者列稀疏。
当然也有L12,关键是看具体如何定义的,我们将此类统称为结构化稀疏。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论