集成化⽅法(通过训练多个不同的模型,并让所有模型⼀起表决测试集的输出):
baggingdropout
其他:
early stop交叉验证(bagging为⼜放回采样,⽽交叉验证可以理解为⽆放回模型平均)
13.⾃注意机制跟多头注意⼒机制的公式?
self-attention:attention(q,t,v) = softmax(qk.T/根号DK)*v
多头的本质是多个独⽴的attention计算,作为⼀个集成的作⽤,不同的权重矩阵映射到不同的空间
RNN:输⼊与输出长度相等,很多时候机器翻译的输⼊跟输出是不等的decoder
seq2seq:encoder+decoder 所有输⼊的信息都保存在隐藏层的最后⼀个印象⾥,作为解码器的初始隐向量,银项链称之为上下⽂向量,长度固定,当输⼊句⼦很长的时候,上下⽂向量会丢失相关信息,效果很差
seq2seq+attention:seq2seq忽略了输⼊跟输出之间的对应关系,利⽤attention来寻求输⼊跟输出之间的对应关系
tranfarmer:解决了⼏圈翻译中⽹络训练时间过长,难以并⾏计算的问题,利⽤self-attention代替RNN实现并⾏计算,⽤postion embedding 记录位置信息
15.multi-head attention的作⽤
类似cnn的多个卷积核,不同卷积核提取不同⽅⾯的特征,不同head关注不同的表⽰⼦控件,总和利⽤各⽅⾯的信息,获得更丰富的特征
16.fead faward是什么?
由两个线性层组成,两个线性层直接具有relu激活函数
17.为什么self-attention采⽤点乘注意⼒⽽不是加减注意⼒?
点乘注意⼒可以⽤⾼度优化的矩阵乘法来实现
速度更快,空间效率更⾼
18.似然函数与概率密度函数的区别?
概率密度函数:由已知计算未知
似然函数:对于不同的模型参数,出现已知的概率是多少
19.特征标准化的原因?
将各个特征分布调整到标准正态分布,若某些特征⽅差很⼤,会主导⽬标函数从⽽使得模型⽆法正确学习其他特征
20.K折交叉验证?
将数据划分成K份,留作⼀份作为测试集,其他作为训练集
重复K次得到K个测试结果,取平均
21.进程跟线程的区别?
进程是⽕车,线程是车厢
1.线程在进程⾥运⾏
2.⼀个进程包含很多线程
3.不同进程很难数据共享,⽽线程可以
4.进程不会相互影响,线程会

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。