【神经⽹络】超参数批⼤⼩batchsize的理解
batchsize:⼀次训练的样本数⽬
对于图⽚数据,⼀般输⼊的数据格式为 (样本数,图⽚长,图⽚宽,通道数),样本数也就是批⼤⼩。
我对批⼤⼩的疑问在于:⼀个批次的数据前向传播后只得到⼀个cost/loss值, 它是由所有样本计算loss再求平均得到。那么⼀批中的图⽚都是不⼀样的,求的loss也不⼀样梯度也不⼀样,但是在神经⽹络中每⼀层都是只⽤⼀个梯度去更新,这样合理吗。
合理。因为求和求平均,对于单个图像可能不是最好的收敛,但是对于整体是最好的,⽽我们的神经⽹络的⽬的就是对整体、对所有数据表现良好。
怎么大批量数据核对差异当然,批⼤⼩也不是越⼤越好,需要正道内存效率和内存容量之间的最佳平衡。
增⼤批⼤⼩,处理速度会加快,训练的振动幅度减⼩,更容易收敛,同时所需的内存容量增加。
批⼤⼩太⼩会难以收敛(容易理解,不同数据之间差异可能⽐较⼤,批次太⼩的话,适合了这个批次却不适合下⼀个批次,所以⼀直震荡难以收敛)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。