layernorm反向传播公式--688IT编程网

layernorm反向传播公式

LayerNorm是一种常用的神经网络正则化方法，它可以对神经网络的输出进行归一化，从而提高网络的鲁棒性和泛化能力。在神经网络的反向传播过程中，需要计算LayerNorm的梯度，以便更新网络参数。下面是LayerNorm的反向传播公式。

设$x$为输入向量，$y$为LayerNorm的输出向量，$w$为LayerNorm的权重向量，$b$为LayerNorm的偏置向量，$N$为向量维度，$\epsilon$为一个很小的常数，用于避免除以零的情况。

首先，计算$y$相对于$x$的梯度：

$$\frac{\partial y_i}{\partial x_j}=\frac{w_j}{\sqrt{\sum_{k=1}^N(x_k-\mu)^2+\epsilon}}\left(\delta_{ij}-\frac{(x_i-\mu)}{\sum_{k=1}^N(x_k-\mu)^2+\epsilon}\right)$$

其中，$\delta_{ij}$是Kronecker delta符号，当$i=j$时为1，否则为0。$\mu$是$x$的均值，计算公式为：

$$\mu=\frac{1}{N}\sum_{i=1}^Nx_i$$

正则化归一化

然后，计算$y$相对于$w$和$b$的梯度：

$$\frac{\partial y_i}{\partial w_j}=\frac{x_j-\mu}{\sqrt{\sum_{k=1}^N(x_k-\mu)^2+\epsilon}}$$

$$\frac{\partial y_i}{\partial b}=\frac{1}{\sqrt{\sum_{k=1}^N(x_k-\mu)^2+\epsilon}}$$

最后，根据链式法则，可以计算出LayerNorm的输入$x$相对于损失函数$L$的梯度：

$$\frac{\partial L}{\partial x_i}=\sum_{j=1}^N\frac{\partial L}{\partial y_j}\frac{\partial y_j}{\partial x_i}$$

其中，$\frac{\partial L}{\partial y_j}$是损失函数$L$相对于$y_j$的梯度，可以通过反向传播计算得到。将上面的$\frac{\partial y_i}{\partial x_j}$代入上式，可以得到：

$$\frac{\partial L}{\partial x_i}=\frac{1}{\sqrt{\sum_{k=1}^N(x_k-\mu)^2+\epsilon}}\left(\frac{\partial L}{\partial y_i}-\frac{1}{N}\sum_{j=1}^N\frac{\partial L}{\partial y_j}-\frac{(x_i-\mu)}{\sum_{k=1}^N(x_k-\mu)^2+\epsilon}\sum_{j=1}^N\frac{\partial L}{\partial y_j}(x_j-\mu)\right)$$

这就是LayerNorm的反向传播公式。通过这个公式，可以计算出LayerNorm的梯度，从而更新网络参数，提高网络的性能和泛化能力。

688IT编程网

layernorm反向传播公式

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

layernorm反向传播公式

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式