核⼼结构:中间部分主要由12个Transformer Decoder的block堆叠⽽成下⾯这张图更直观地反映了模型的整体结构:
对⽐原有transformer的结构
阶段描述
预训练阶段:
预训练阶段为⽂本预测,即根据已有的历史词预测当前时刻的词,7-2,7-3,7-4三个式⼦对应之前的GPT结构图,输出P(x)为输出,每个词被预测到的概率,再利⽤7-1式,计算最⼤似然函数,据此构造损失函数,即可以对该语⾔模型进⾏优化。
计算过程:
1. 输⼊
decoder下⾯我们着重关注计算步骤2, 3计算细节:
每个decoder层包含两个⼦层计算过程:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。