weight decay
权重衰减 - Weight Decay
简述
权重衰减(又称L2-正则化)是一种模型正则化(Regularzation)技术。
原理
首先,用权重向量的L2-范数来衡量模型函数的复杂度,这是对模型复杂度的量化。
把上述L2-范数加入到训练目标中。我的意思是,模型现在的训练目标调整为:最小化预测误差与L2-范数的和。
这个L2-范数也叫做惩罚项。上述做法的目标,是当权重向量增长得太大时,模型可能会更倾向于让权重的L2-范数变得更小,从而限制模型的复杂度。模型在训练时,预测损失和权重范数都在减小,因此这种方法被称为权重衰减。
引入非负正则化常数,平衡预测误差与惩罚项的权重。这是权重衰减的超参数。
上述预测损失,指的是不含惩罚项的损失函数值,例如预测标签和样本标签的交叉熵损失。正则化常数

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。