基于双注意力CrossViT的微表情识别方法
作者:冉瑞生 石凯 江小鹏 王宁
来源:《南京信息工程大学学报》2023年第05期
        摘要 微表情是人们试图隐藏自己真实情绪时不由自主泄露出来的面部表情,是近年来情感计算领域的热点研究领域.微表情是一种细微的面部运动,难以捕捉其细微变化的特征.本文基于交叉注意力多尺度ViT(CrossViT)在图像分类领域的优异性能以及能够捕捉细微特征信息的能力,将CrossViT作为主干网络,对网络中的交叉注意力机制进行改进,提出了DA模块(Dual Attention)以扩展传统交叉注意力机制,确定注意力结果之间的相关性,从而提升了微表情识别精度.本网络从三个光流特征(即光学应变、水平和垂直光流场)中学习,这些特征是由每个微表情序列的起始帧和峰值帧计算得出,最后通过Softmax进行微表情分类.在微表情融合数据集上,UF1和UAR分别达到了0.727 5和0.727 2,识别精度优于微表情领域的主流算法,验证了本文提出网络的有效性.
        关键词 微表情识别;CrossViT;交叉注意力机制;光流特征
        中图分类号TP391.4
        文献标志码A
        0 引言
        微表情是人们试图隐藏自己真实情绪时不由自主泄露出来的面部表情,即使是专业演员也很难伪装.除了日常生活中普通的面部表情,在某些情况下,情绪也会以微表情的形式表现出来.与普通的面部表情相比,微表情的持续时间仅有1/25~1/3 s[1],并且参与的肌肉运动强度很微弱[2].因此,微表情可以被视为推断人類情绪的可靠线索之一,这使得它们在司法系统、刑侦审讯和临床诊断中得到广泛应用.
        由于微表情识别的广泛应用性,近年来,研究者开展了大量的研究.这些研究主要分为基于传统机器学习的方法和基于深度学习的方法.在传统机器学习方法中,特征提取是影响算法性能的关键.局部二值模式(LBP)[3]是一种特征提取算法,它根据当前像素值对相邻像素进行阈值处理,有效地描述了图像纹理特征.此后,针对微表情识别任务还提出了多种LBP算法,如三正交局部二值模式(LBP-TOP)[4]和六交叉点局部二值模式(LBP-SIP)[5].Huang等[6]提出一种积分投影方法,将形状属性与时空纹理特征相结合,实现了微表情识别的判别时空局部二元模式(SLBP).此外,还存在两个时空描述符:主方向平均光流(MDMO)[7]和人脸动态图(FDM)[8].Liu等[9]进一步将MDMO纳入经典的图正则化稀疏编码中,生成了稀疏MDMO特征.马浩原等[10]提出平均光流直方图(MHOOF),提取相邻两帧间感兴趣区域的HOOF特征以检测峰值帧,将峰值帧和起
始帧的MHOOF特征用于微表情识别.Liong等[11]提出了双加权定向光流(Bi-WOOF)特征描述符,将光流幅值和光学应变大小作为权值,生成人脸区域各块的方向直方图进行微表情识别.
        传统方法需要繁琐的手工特征设计,而且微表情识别的准确率低.考虑到深度学习在面部表情识别中取得的良好表现,研究人员开始试图将深度学习应用于微表情的识别任务.Quang等[12]首次将胶囊网络(CapNet)[13]应用于微表情识别模型中,该模型设计简单,所需的训练数据很少,并且具有很强的鲁棒性.Lai等[14]则通过在VGG网络中添加残差连接,增加网络深度的同时也缓解了梯度消失的问题,在该研究中还使用了空洞卷积替换传统卷积,扩大感受野的同时也能够捕捉多尺度的上下文信息.Wang等[15]在ResNet网络上进行改进,在网络中添加微注意力提升模型对面部区域的关注,从而提升识别的精度.Liong等[16]提出一种利用光流特征进行微表情检测和识别的方法,它可以更好地表现精细、微妙的面部运动.在此基础上,Liong等[17]进一步提出了浅三流三维CNN(STSTNet),并利用光流特征训练网络.这些研究表明,由于微表情数据集样本数量小,浅层神经网络更适合于微表情识别任务.此外,Verma等[18]也试图通过递增的方式提取更显著的表情特征,来捕捉面部区域每个表情的微观层面特征.Khor等[19]引入长期循环
卷积网络(ELRCN)模型用于微表情识别,该模型通过结合深度空间特征学习模块和时间特征学习模块对微表情特征进行编码.
        目前主流的微表情识别算法一般是采用卷积网络提取特征.Zhao等[20]提出6层CNN网络进行特征提取.Khor等[21]提出一个轻量级的双流浅层网络,其网络整体由CNN组成.Zhi等[22]将CNN与LSTM串联起来,直接处理不同时长的微表情序列.
        Transformer是一种主要基于自注意力机制的深度神经网络,最初应用于自然语言处理领域.受到Transformer强大的表示能力的启发,研究人员开始提出将Transformer扩展到计算机视觉任务.Ma等[23]首次将Transformer架构应用到表情识别中,在该网络中首先使用ResNet18提取输入图像的特征图,最后再放入多层Transformer编码器中进行分类.Zhang等[24]提出SLSTT网络,该网络结构将微表情序列光流特征送入到Transformer编码器中,通过LSTM架构对时间和空间特征融合后进行分类.刘忠洋等[25]基于注意力机制进行多尺度特征融合,证明了多尺度特征融合在图像分类上的有效性.
        Chen等[26]提出一种双分支的Transformer分别提取不同尺度特征以及基于CrossAttention的融合机制融合不同分支的特征.对于视觉Transformer,通过改进自注意力
机制能够有效提升网络的性能.Huang等[27]扩展了传统的自注意力机制,以确定注意力结果和查询结果的相关性.杨春霞等[28]提出的基于BERT与注意力机制融合的模型,表明Transformer架构在关于情感分析任务中有较好的表现.受上述文献启发,本文对于注意力机制进行了改进,以提升微表情识别精度.
        Huang等[27]研究表明,Transformer编码器中的自注意力机制所提取的特征中包含了一些冗余和无用的特征信息,在微表情领域,这些冗余和无用的特征信息不利于后续的微表情识别任务.另外,由于微表情是一种面部运动幅度很低的情感表达,传统的卷积神经网络难以捕捉到这些细微的特征.而人们最近提出的多尺度网络较传统卷积网络能够捕捉更加细微的特征信息[25-26],以获得更加丰富的特征信息用于微表情识别.基于此,本文将交叉注意力多尺度ViT(CrossViT)网络进行改进并应用到微表情识别上,实验表明提出的方法取得了较好的识别效果.本文的贡献有如下几点:
        1) 本文所提出的模型较早地将CrossViT网络应用到微表情领域,证明了其在微表情识别上的有效性;
        2) 本文对CrossViT网络中原有的注意力机制进行了改进,提出了DA(Dual Attention)
模块,该模块扩展了传统交叉注意力机制,确定注意结果和查询之间的相关性,以保留网络中有用的特征信息,从而有效提升了网络的识别性能;
正则化可以产生稀疏权值        3) 本文所提出的模型在CASME Ⅱ、SMIC和SAMM 三个数据集上均取得了良好的识别性能,验证了本文模型在微表情识别上的有效性.
        1 相关工作
        1.1 光流特征
        微表情识别的早期研究方法主要是基于手工特征的传统机器学习方法.这些手工特征是利用设计好的特征提取算子提取对应的特征,并将特征送入SVM等分类器进行微表情分类.手工特征提取的方法可以分为两种:第一种是基于表观特征的方法,该方法考虑到图像的像素之间的关系并进行相应特征的提取,可以得到微表情序列的动态纹理信息,如LBP[3]、LBP-TOP[4]等;第二种是基于几何特征的方法,该方法考虑到图像局部特征区域和特征点的位移和形变,进行相应的特征提取.光流特征是一种基于几何特征的特征提取方法,其基于光流的特征描述符推断不同帧之间的相对运动,能为微表情识别捕获微表情连续帧之间的时间特征.
        光流特征中的光流是指空间运动物体在观察成像平面上的像素运动的瞬时速度.其特征提取是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来到上一帧跟当前帧之间存在的对应关系,从而计算相邻帧之间的运动信息,通过TVL1光流法可以计算出微表情序列中起始帧和峰值帧之间的水平和垂直光流矢量.光流应变代表的是人脸运动变化强度,能够作为加权方案,以突出每个光流的重要,从而减少了小强度的光流噪声.每个像素点的光流应变可以通过计算水平和垂直的光流矢量的平方和进行计算.
        1.2 CrossViT
        CrossViT是将两个不同分支的图像标记,通过交叉注意力进行类标记融合.CrossViT的整体网络架构如图1所示.该网络主要是由K个多尺度Transformer编码器(图1中黄区域)组成,将光流特征图送入到2个不同尺度的分支中.
        1) La分支对粗粒度的特征块进行操作,在该分支中,将原始光流特征图作为特征块输入,然后将特征块扁平成一维向量后通过投影函数得到更大的嵌入向量,并经过M個Transformer编码器进行特征提取;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。