GLM预训练实践如下:
模型结构。以自编码的方式随机在输入文本中选择一段span置为空白(原文叫Blank),然后以自回归的方式去重建span来训练。
html span 居中训练过程。每个span都会被一个[mask]token替代,成为一个corrupted text。模型会以自回归的方式去预测span中被[mask]代替的token,并且在预测一个span被替代的token时,模型能够看见corrupt text和该span之前被预测过的span。在训练中,会随机打乱spans的顺序,以此能够充分挖掘到span之间的依赖关系。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。