损失函数———有关L1和L2正则项的理解
⼀、损失函:
模型的结构风险函数包括了经验风险项和正则项,如下所⽰:
⼆、损失函数中的正则项
1.正则化的概念:
机器学习中都会看到损失函数之后会添加⼀个额外项,常⽤的额外项⼀般有2种,L1正则化和L2正则化。L1和L2可以看做是损失函数的惩罚项,所谓惩罚项是指对损失函数中某些参数做⼀些限制,以降低模型的复杂度。
L1正则化通过稀疏参数(特征稀疏化,降低权重参数的数量)来降低模型的复杂度;
L2正则化通过降低权重的数值⼤⼩来降低模型复杂度。
对于线性回归模型,使⽤L1正则化的模型叫做Lasso回归,使⽤L2正则化的模型叫做Ridge回归(岭回归)。
⼀般正则化项前⾯添加⼀个系数λ,数值⼤⼩需要⽤户⾃⼰指定,称权重衰减系数weight_decay,表⽰衰减的快慢。
2.L1正则化和L2正则化的作⽤:
·L1正则化可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择。
·L2正则化可以减⼩参数⼤⼩,防⽌模型过拟合;⼀定程度上L1也可以防⽌过拟合
稀疏矩阵的概念:
·
在矩阵中,若数值为0的元素数⽬远远超过⾮0元素的数⽬时,则该矩阵为稀疏矩阵。与之相反,若⾮0元素数⽬占⼤多数时,则称该矩阵为稠密矩阵。
3、正则项的直观理解
引⽤⽂档链接:
分别从以下⾓度对L1和L2正则化进⾏解释:
1、优化⾓度分析
2、梯度⾓度分析
3、图形⾓度分析
4、 PRML的图形⾓度分析
优化⾓度分析:
L2正则化的优化⾓度分析:
即在限定区域到使得E D(W)最⼩的权重W。
假设n=2,即只有2个参数w1和w2;作图如下:
图中红⾊的圆即是限定区域,简化为2个参数就是w1和w2,限定区域w12+w22≤C即是以原点为圆⼼的圆。蓝⾊实线和虚线是等⾼线,外⾼内低,越靠⾥⾯的等⾼圆E D(W)越⼩。梯度下降的⽅向(梯度的反⽅向-▽E D(W)),即图上灰⾊箭头的⽅向,由外圆指向内
圆的⽅向表⽰;正则项边界上运动点P1和P2的切线⽤绿⾊箭头表⽰,法向量⽤实⿊⾊箭头表⽰。切点P1上的切线在梯度下降⽅向有分量,仍有往负梯度⽅向运动的趋势;⽽切点P2上的法向量正好是梯度下降的⽅向,切线⽅向在梯度下降⽅向⽆分量,所以往梯度下降⽅向没有运动趋势,已是梯度最⼩的点。
结论:L2正则项使E最⼩时对应的参数W变⼩(离原点的距离更⼩)
L1正则化的优化⾓度分析:
在限定区域,到使E D(w)的最⼩值。
同上,假设参数数量为2:w1和w2,限定区域为|w1|+|w2|≤C ,即为如下矩形限定区域,限定区域边界上的点的切向量的⽅向始终指向w2轴,使得w1=0,所以L1正则化容易使得参数为0,即使参数稀疏化。
梯度⾓度分析:
L1正则化:
L1正则化的损失函数为:
L1正则项的添加使参数w的更新增加了,sgn(w)为阶跃函数,当w⼤于0,sgn(w)>0,参数w变⼩;当w⼩于0时,更新参数w变⼤,所以总体趋势使得参数变为0,即特征稀疏化。
L2正则化:
L2正则化的损失函数为:
由上式可以看出,正则化的更新参数相⽐没有加正则项的更新参数多了,当w>0时,正则项使得参数增
l1正则化的作用⼤变慢(减去⼀个数值,增⼤的没那么快),当w<0时,正则项使得参数减⼩变慢(加上⼀个数值,减⼩的没那么快),总体趋势变得很⼩,但不为0。
PRML的图形⾓度分析
L1正则化在零点附近具有很明显的棱⾓,L2正则化则在零附近是⽐较光滑的曲线。所以L1正则化更容易使参数为零,L2正则化则减⼩参数值,如下图。
L1正则项
L2正则项
以上是根据阅读百度⽹友⽂章做的笔记(其中包括⾃⼰的理解),感谢该⽂档作者,引⽤链接:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论