机器学习中规范化项:L1和L2--688IT编程网

机器学习中规范化项：L1和L2

规范化（Regularization）

机器学习中⼏乎都可以看到损失函数后⾯会添加⼀个额外项，常⽤的额外项⼀般有两种，⼀般英⽂称作

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做⼀些限制。对于线性回归模型，使⽤L1正则化的模型建叫做Lasso回归，使⽤L2正则化的模型叫做Ridge回归（岭回归）。下图是Python中Lasso回归的损失函数，式中加号后⾯⼀项α||w||1

下图是Python中Ridge回归的损失函数，式中加号后⾯⼀项α||w||2

⼀般回归分析中回归w

L1正则化是指权值向量w

L2正则化是指权值向量w

⼀般都会在正则化项之前添加⼀个系数，Python中⽤α

那添加L1和L2正则化有什么⽤？下⾯是L1正则化和L2正则化的作⽤，这些表述可以在很多⽂章中到。

L1正则化可以产⽣稀疏权值矩阵，即产⽣⼀个稀疏模型，可以⽤于特征选择

L2正则化可以防⽌模型过拟合（overfitting）；⼀定程度上，L1也可以防⽌过拟合

稀疏模型与特征选择

上⾯提到L1正则化有助于⽣成⼀个稀疏权值矩阵，进⽽可以⽤于特征选择。为什么要⽣成⼀个稀疏矩阵？

稀疏矩阵指的是很多元素为0，只有少数元素是⾮零值的矩阵，即得到的线性回归模型的⼤部分系数都是0. 通常机器学习中特征数量很多，例如⽂本处理时，如果将⼀个词组（term）作为⼀个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代⼊这些特征得到的模型是⼀个稀疏模型，表⽰只有少数特征对这个模型有贡献，绝⼤部分特征是没有贡献的，或者贡献微⼩（因为它们前⾯的系数是0或者是很⼩的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是⾮零值的特征。这就是稀疏模型与特征选择的关系。

L1和L2正则化的直观理解

这部分内容将解释为什么L1正则化可以产⽣稀疏模型（L1是怎么让系数等于零的），以及为什么L2正则化可以防⽌过拟合。

L1正则化和特征选择

假设有如下带L1正则化的损失函数：

其中J

图1 L1正则化

图中等值线是J0的等值线，⿊⾊⽅形是L函数的图形。在图中，当J0等值线与L图形⾸次相交的地⽅就是最优解。上图中J0与L在L的⼀个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为LL函数有很多『突出的⾓』（⼆维情况下四个，多维情况下更多），J0与这些⾓接触的机率会远⼤于与LL其它部位接触的机率，⽽在这些⾓上，会有很多权值等于0，这就是为什么L1正则化可以产⽣稀疏模型，进⽽可以⽤于特征选择。

⽽正则化前⾯的系数α，可以控制LL图形的⼤⼩。α越⼩，L的图形越⼤（上图中的⿊⾊⽅框）；α越⼤，L的图形就越⼩，可以⼩到⿊⾊⽅框只超出原点范围⼀点点，这是最优点的值(w1,w2)=(0,w)中的w可以取到很⼩的值。

类似，假设有如下带L2正则化的损失函数：

图2 L2正则化

⼆维平⾯下L2正则化的函数图形是个圆，与⽅形相⽐，被磨去了棱⾓。因此J0与LL相交时使得w1或w2等于零的机率⼩了许多，这就是为什

么L2正则化不具有稀疏性的原因。

L2正则化和过拟合

拟合过程中通常都倾向于让权值尽可能⼩，最后构造⼀个所有参数都⽐较⼩的模型。因为⼀般认为参数值⼩的模型⽐较简单，能适应不同的数据集，也在⼀定程度上避免了过拟合现象。可以设想⼀下对于⼀个线性回归⽅程，若参数很⼤，那么只要数据偏移⼀点点，就会对结果造成很⼤的影响；但如果参数⾜够⼩，数据偏移得多⼀点也不会对结果造成什么影响，专业⼀点的说法是『抗扰动能⼒强』。

正则化英文

那为什么L2正则化可以获得值很⼩的参数？

以线性回归中的梯度下降法为例。假设要求的参数为θθ，hθ(x)是我们的假设函数，那么线性回归的代价函数如下：

其中λ就是正则化参数。从上式可以看到，与未添加L2正则化的迭代公式相⽐，每⼀次迭代，θj都要先乘以⼀个⼩于1的因⼦，从⽽使得θjθj 不断减⼩，因此总得来看，θ是不断减⼩的。

最开始也提到L1正则化⼀定程度上也可以防⽌过拟合。之前做了解释，当L1的正则化系数很⼩时，得到的最优解会很⼩，可以达到和L2正则化类似的效果。

正则化参数的选择

L1正则化参数

通常越⼤的λ

假设有如下带L1正则化项的代价函数：

图3 L1正则化参数的选择

分别取λ=0.5

L2正则化参数

从公式5可以看到，λ越⼤，θj衰减得越快。另⼀个理解可以参考图2，λ越⼤，L2圆的半径越⼩，最后求得代价函数最值时各参数也会变得很⼩。

688IT编程网

机器学习中规范化项:L1和L2

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

机器学习中规范化项:L1和L2

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行