transformer概念介绍
摘要:
1.Transformer 的整体结构
2.Transformer 的输入
3.Transformer 的工作流程
4.细节部分
4.1 单词 Embedding
4.2 位置 Embedding
4.3 Decoder 的输入
decoder正文:
Transformer 是一个非常强大的深度学习模型,广泛应用于语言翻译、文本生成等领域。本文将详细介绍 Transformer 的概念和结构。
1.Transformer 的整体结构
Transformer 由 Encoder 和 Decoder 两个部分组成,这两个部分各有 6 个 block。它的工作流程大体如下:首先,获取输入句子的每一个单词的表示向量 X,这个向量由单词的 Embedding 和单词位置的 Embedding 相加得到。然后,将得到的单词表示向量矩阵传入 Encoder 中,经过 6 个 Encoderblock 后可以得到句子所有单词的编码信息矩阵 C。再将 Encoder 输出的编码信息矩阵 C 传递到 Decoder 中,Decoder 依次会根据当前翻译过的单词 1~i 翻译下一个单词 i1。
2.Transformer 的输入
在 Transformer 中,单词的输入表示 x 由单词 Embedding 和位置 Embedding(PositionalEncoding)相加得到。单词的 Embedding 有很多种方式可以获取,例如可以采用 Word2Vec、Glove 等算法预训练得到,也可以在 Transformer 中训练得到。位置 Embedding 表示单词出现在句子中的位置,它可以帮助模型理解句子的语境。
3.Transformer 的工作流程
Transformer 的工作流程分为三步。第一步,获取输入句子的每一个单词的表示向量 X。第二步,将得到的单词表示向量矩阵传入 Encoder 中,经过 6 个 Encoderblock 后可以得到句子所有单词的编码信息矩阵 C。第三步,将 Encoder 输出的编码信息矩阵 C 传递到 Decoder 中,Decoder 依次会根据当前翻译过的单词 1~i 翻译下一个单词 i1。
4.细节部分
4.1 单词 Embedding:单词的 Embedding 有很多种方式可以获取,例如可以采用 Word2Vec、Glove 等算法预训练得到,也可以在 Transformer 中训练得到。
4.2 位置 Embedding:Transformer 中除了单词的 Embedding,还需要使用位置 Embedding 表示单词出现在句子中的位置,它可以帮助模型理解句子的语境。
4.3 Decoder 的输入:Decoder 的输入包括三个部分:Encoder 的输出、翻译开始符和掩码。翻译开始符用于表示一个新的翻译过程开始,而掩码用于遮盖住已经翻译过的单词,防止模型看到后面的单词。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论