transformer 最核心时序处理公式(二)--688IT编程网

transformer 最核心时序处理公式(二)

Transformer 最核心时序处理公式

Transformer 是一种用于进行序列到序列（seq2seq）任务的流行的深度学习模型。其核心时序处理公式是指在每个时间步骤上对输入序列进行编码和解码的公式。本文将列举相关公式，并通过例子来解释说明。

1. Encoder

Self-Attention

Self-Attention 是 Transformer 的关键组件之一。下面是 Self-Attention 的公式：

decoder

其中，代表查询向量（Query），代表键向量（Key）, 代表值向量（Value），表示键向量的维度。Self-Attention 可以将输入序列中的每个位置根据其相对于其他位置的重要性进行加权表示。

举例来说，假设我们有一个输入序列为，通过 Self-Attention 公式可以得到每个位置的编码表示：

Feed-Forward Network

Feed-Forward Network 是 Transformer Encoder 中的另一个重要组件。下面是 Feed-Forward Network 的公式：

其中，是输入向量，和是可学习的权重矩阵，和是可学习的偏差向量。Feed-Forward Network 通过对输入向量进行线性变换和非线性激活操作，来提取更高级别的特征表示。

举例来说，假设输入向量，通过 Feed-Forward Network 公式可以得到输出向量：

2. Decoder

Masked Self-Attention

在解码器中，为了确保每个位置只能看到自身之前的位置，需要使用 Masked Self-Attention。下面是 Masked Self-Attention 的公式：

其中，是一个上三角矩阵，对于当前位置之后的位置赋予一个非常小的值，从而屏蔽掉未来的信息。

举例来说，假设我们已经生成了一个部分的解码序列，并希望生成下一个位置的结果。通过 Masked Self-Attention 公式可以得到每个位置的编码表示：

Encoder-Decoder Attention

解码器还需要利用编码器的信息来生成输出序列。为此，引入了 Encoder-Decoder Attention。下面是 Encoder-Decoder Attention 的公式：

与 Self-Attention 类似，但是这里的查询向量是解码器当前位置的输出向量，而键向量和值向量则分别是编码器所有位置的输出向量。

举例来说，假设编码器输出序列为，解码器当前位置的输出向量为。通过 Encoder-Decoder Attention 公式可以得到解码器当前位置的编码表示：

…

通过这些时序处理公式，Transformer 能够有效地对序列进行编码和解码，实现各种序列到序列的任务。以上只是对几个核心公式进行了简要介绍，实际中还有其他的细节处理，如加入残差连接和层归一化等，这些细节有助于提高模型的性能和训练效果。

688IT编程网

transformer 最核心时序处理公式(二)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

transformer 最核心时序处理 公式(二)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

transformer 最核心时序处理公式(二)

nginx map用法正则

shell 正则表达式最后一行