损失函数———有关L1和L2正则项的理解--688IT编程网

损失函数———有关L1和L2正则项的理解

⼀、损失函：

模型的结构风险函数包括了经验风险项和正则项，如下所⽰：

⼆、损失函数中的正则项

1.正则化的概念：

机器学习中都会看到损失函数之后会添加⼀个额外项，常⽤的额外项⼀般有2种，L1正则化和L2正则化。L1和L2可以看做是损失函数的惩罚项，所谓惩罚项是指对损失函数中某些参数做⼀些限制，以降低模型的复杂度。

L1正则化通过稀疏参数（特征稀疏化，降低权重参数的数量）来降低模型的复杂度；

L2正则化通过降低权重的数值⼤⼩来降低模型复杂度。

对于线性回归模型，使⽤L1正则化的模型叫做Lasso回归，使⽤L2正则化的模型叫做Ridge回归（岭回归）。

⼀般正则化项前⾯添加⼀个系数λ，数值⼤⼩需要⽤户⾃⼰指定，称权重衰减系数weight_decay，表⽰衰减的快慢。

2.L1正则化和L2正则化的作⽤：

·L1正则化可以产⽣稀疏权值矩阵，即产⽣⼀个稀疏模型，可以⽤于特征选择。

·L2正则化可以减⼩参数⼤⼩，防⽌模型过拟合；⼀定程度上L1也可以防⽌过拟合

稀疏矩阵的概念：

在矩阵中，若数值为0的元素数⽬远远超过⾮0元素的数⽬时，则该矩阵为稀疏矩阵。与之相反，若⾮0元素数⽬占⼤多数时，则称该矩阵为稠密矩阵。

3、正则项的直观理解

引⽤⽂档链接：

分别从以下⾓度对L1和L2正则化进⾏解释：

1、优化⾓度分析

2、梯度⾓度分析

3、图形⾓度分析

4、 PRML的图形⾓度分析

优化⾓度分析：

L2正则化的优化⾓度分析：

即在限定区域到使得E D（W）最⼩的权重W。

假设n=2，即只有2个参数w1和w2；作图如下：

图中红⾊的圆即是限定区域，简化为2个参数就是w1和w2，限定区域w12+w22≤C即是以原点为圆⼼的圆。蓝⾊实线和虚线是等⾼线，外⾼内低，越靠⾥⾯的等⾼圆E D（W）越⼩。梯度下降的⽅向（梯度的反⽅向-▽E D（W）），即图上灰⾊箭头的⽅向，由外圆指向内

圆的⽅向表⽰；正则项边界上运动点P1和P2的切线⽤绿⾊箭头表⽰，法向量⽤实⿊⾊箭头表⽰。切点P1上的切线在梯度下降⽅向有分量，仍有往负梯度⽅向运动的趋势；⽽切点P2上的法向量正好是梯度下降的⽅向，切线⽅向在梯度下降⽅向⽆分量，所以往梯度下降⽅向没有运动趋势，已是梯度最⼩的点。

结论：L2正则项使E最⼩时对应的参数W变⼩（离原点的距离更⼩）

L1正则化的优化⾓度分析：

在限定区域，到使E D（w）的最⼩值。

同上，假设参数数量为2：w1和w2，限定区域为|w1|+|w2|≤C ，即为如下矩形限定区域，限定区域边界上的点的切向量的⽅向始终指向w2轴，使得w1=0，所以L1正则化容易使得参数为0，即使参数稀疏化。

梯度⾓度分析：

L1正则化：

L1正则化的损失函数为：

L1正则项的添加使参数w的更新增加了，sgn(w)为阶跃函数，当w⼤于0，sgn(w)>0，参数w变⼩；当w⼩于0时，更新参数w变⼤，所以总体趋势使得参数变为0，即特征稀疏化。

L2正则化：

L2正则化的损失函数为：

由上式可以看出，正则化的更新参数相⽐没有加正则项的更新参数多了，当w>0时，正则项使得参数增

l1正则化的作用⼤变慢（减去⼀个数值，增⼤的没那么快），当w<0时，正则项使得参数减⼩变慢（加上⼀个数值，减⼩的没那么快），总体趋势变得很⼩，但不为0。

PRML的图形⾓度分析

L1正则化在零点附近具有很明显的棱⾓，L2正则化则在零附近是⽐较光滑的曲线。所以L1正则化更容易使参数为零，L2正则化则减⼩参数值，如下图。

L1正则项

L2正则项

以上是根据阅读百度⽹友⽂章做的笔记（其中包括⾃⼰的理解），感谢该⽂档作者，引⽤链接：

688IT编程网

损失函数———有关L1和L2正则项的理解

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

损失函数———有关L1和L2正则项的理解

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行