(外 Q1 2021) 具有动态正则化的卷积神经网络chap1 问题背景提出动态正则化是为了应对正则化方法的两个主要缺点:1)正则化强度(或振幅)对于不同的网络架构是不灵活的2)正则化强度在整个训练过程中是不变的chap2 PROPOSED METHOD
1)在Res结构中引入动态正则化具有动态正则化的2分支Res块,表示训练损失的向后差
∇f (loss )① 动态正则化单元  嵌入到Res块的Res分支中:
A是恒定振幅,si是第i次迭代时的动态因子,r是均匀随机噪声
θθ
=A +s ⋅r i ② 正则化幅度与  有关, r∈ [ −R、 R], ,  是Res块的总数
A +s ⋅R i R =l l /L L ③ 在前向传递中,第(l+1)个Res块的输出可以表示为:
在向后传递中,  与噪声  相关
x =l +1x +l (A +s ⋅r )F (x )
i l θr 2)正则化强度的更新所提出的动态正则化强度的更新解决方案是通过训练损失的动态实现的。特别地,训练损失的动态特性可以建模为
神经网络中正则化是为了干什么连续迭代中训练损失之间的向后差:  表示第i次迭代时的训练损失∇loss =i loss −i loss i −1
loss i 为了消除连续小批量输入时的波动,应用高斯滤波器对其平滑:
∇f (loss )=i f (loss )−f (loss )i i −1chap3 实验结果2分支结构与稠密结构 在稠密链接结构上的实验结果表明:我们的动态正则化是稳定的,并将Top-1误差减少了1.67%3分支结构
表I和表II的结果表明,在2分支和3分支结构上与当时最新的正则化方法 Shake-Shake,Shake-Drop, DropBlok 的比较,提出的动态正则化可以适应各种网络架构。与基线相比,本文提出的方法可以平均减少2%以上的误差chap4 消融研究和讨论1)动态正则化的有效性2)正则化强度一览表3)随机噪声4)高斯滤波器

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。