深度学习:学习率(learningrate)
Introduction
学习率 (learning rate),控制模型的学习进度:
lr 即 stride (步长) ,即中的ηη:
ωn←ωn−η∂L∂ωnωn←ωn−η∂L∂ωn
学习率⼤⼩
学习率⼤学习率⼩
学习速度快慢
使⽤时间点刚开始训练时⼀定轮数过后
副作⽤ 1.易损失值爆炸;2.易振荡。1.易过拟合;2.收敛速度慢。
学习率设置
在训练过程中,⼀般根据训练轮数设置动态变化的学习率。
数据可视化什么意思刚开始训练时:学习率以 0.01 ~ 0.001 为宜。
⼀定轮数过后:逐渐减缓。
接近训练结束:学习速率的衰减应该在100倍以上。
Note:
如果是迁移学习,由于模型已在原始数据上收敛,此时应设置较⼩学习率 (≤10−4≤10−4) 在新数据上进⾏微调。
把脉⽬标函数损失值曲线
理想情况下曲线应该是滑梯式下降[绿线]:
1. 曲线初始时上扬 [红线]: Solution:初始学习率过⼤导致振荡,应减⼩学习率,并从头开始训练。
2. 曲线初始时强势下降没多久归于⽔平 [紫线]: Solution:后期学习率过⼤导致⽆法拟合,应减⼩学习率,并重新训练后⼏轮。
3. 曲线全程缓慢 [黄线]: Solution:初始学习率过⼩导致收敛慢,应增⼤学习率,并从头开始训练。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论