2023年8月 Electric Power Information and Communication Technology Aug. 2023
中图分类号:
TP391.4  文献标志码:A  文章编号:2095-641X(2023)08-029-07  DOI :10.16543/j.2095-641x.electric.power.ict.2023.08.05 著录格式:王栋,李达,杨珂,等.基于多模态信息融合的深度伪造检测[J].电力信息与通信技术,2023,21(8):29-35.
基于多模态信息融合的深度伪造检测
王栋1,2,李达2,3,杨珂2,3,郭庆雷2,3,王合建2,3
(1.国网数字科技控股有限公司,北京市 西城区 100053; 2.国网区块链科技(北京)有限公司,北京市 西城区 100053; 3.国家电网有限公司区块链技术实验室,北京市 西城区 100053)
Deepfake Detection Based on Multi-mode Information Fusion
WANG Dong 1,2, LI Da 2,3, YANG Ke 2,3, GUO Qinglei 2,3, WANG Hejian 2,3
(1. State Grid Digital Technology Holding Co., Ltd., Xicheng District, Beijing 100053, China;
2. State Grid Blockchain Technology (Beijing) Co., Ltd., Xicheng District, Beijing 100053, China;
3. Blockchain Technology Laboratory of State Grid Corporation of China, Xicheng District, Beijing 100053, China)
摘要:深度伪造技术的快速发展和应用给国家和社会安全、个人信息数据、企业安全等造成了潜在威胁。从电网企业的实际业务场景出发,针对现有深度伪造检测方法的泛化能力不足问题,文章提出一种基于多模态信息融合的深度伪造检测方法,为保护电网企业合法权益提供支撑。提出的方法在基准人脸伪造数据集FaceForensics++(FF++)进行验证评估,结果表明该方法在人脸伪造检测方面性能优良、鲁棒性好,同时多模态信息融合使得模型泛化性得到了很好的提升。
关键词:多模态信息融合;VisionTransformer 模型;深度伪造
ABSTRACT: The rapid development and application of deep forgery generation technology have posed potential threats to personal privacy data, social stability, national and enterprise security, etc. Starting from the actual business scenarios of power grid enterprises, and aiming at the insufficient generalization ability of existing deep forgery detection methods, this paper proposes a deep forgery detection method based on multimodal information fusion to provide support for protecting the legitimate rights and interests of power grid enterprises. The method proposed in this paper is verified
and evaluated in the benchmark face forgery dataset FaceForensics++(FF++). The experimental results show that the method has good performance and robustness in face forgery detection, and multimodal information fusion improves the generalization of the model.
KEY WORDS: multimodal information fusion; VisionTransformer model; Deepfake
0  引言
深度伪造(Deepfake)技术是指利用生成对抗网络(generative adversarial network ,GAN)等模型实现伪造图像、视频的生成[1]。该项技术最早起源于2017年,一个名为Deepfakes 的用户在Reddit 网站上发布了用女明星的脸替换情视频中人脸的视频[2]。从身份信息相关的角度可以将深度伪造生成大致分为
2类:一是与身份信息无关的伪造类型的人脸合成;二是与身份信息相关的伪造类型的人脸合成。其中,与身份信息相关的伪造类型人脸合成又包括不保留身份信息的伪造与保留信息的伪造类型。不保留身份信息的深度伪造生成类型主要为
基金项目:国网数科控股公司科技项目“电力生产运行数据深度伪造排查、数据取证、鉴定与溯源技术研究”(1200/2022-72001B)。
人脸替换;而保留身份信息的深度伪造生成类型主要为属性编辑及表情重演。随着深度伪造技术的不断更新迭代,当前的深度伪造类型不仅仅停留在视觉层面,还囊括了音频类型的伪造(见图1)。
图1  深度伪造典型类型与新兴伪造类型
Fig. 1  Typical types of deepfakes and emerging
types of forgery
深度伪造生成技术已在多个领域大量应用,如:视频换脸、语音合成、修复影像、虚拟数字人等越来越频繁地出现在社交娱乐、影视制作等领域。随着深度伪造生成技术变得更智能、更便捷,一些不法分子利用深度伪造生成技术生成有害的音视频内容,除人脸替换带来的淫秽情视频泛滥外,在人脸合成、语音合成等领域,很多不法分子盗用他人身份进行网络、网络攻击,侵犯他人隐私权利,对国家和
社会安全、企业名誉权以及他人合法权益等造成了严重威胁,深度伪造生成技术的恶意使用,已日渐发展为虚假信息战的新武器。所以,研究更鲁棒、更泛化的深度伪造检测技术变得更迫切。
电网公司涉及业务范围大,是关乎国计民生的骨干企业,深度伪造生成技术的滥用或将对电网企业造成难以评估的影响。在编辑制作能源电力新闻过程中,需要对从境内外获取的视频素材进行鉴别,防止利用深度伪造生成技术恶意伪造电网企业领导的讲话内容,通过合成假视频抹黑企业重要人物。在线路设备运检、电网建设和营销查窃电等涉外电力生产运行业务中,需要对现场施工音视频进行鉴别,防止伪造音视频借助社交媒体快速传播,影响企业在公众心中的形象,从而影响企业的名誉和利益。
国内外学者针对深度伪造技术开展大量研究,来应对深度伪造生成技术带来的威胁与挑战。一方面,传统的图像伪造检测采用基于信号处理的方法,区分图像的两类特征(频域特征、统计特征),以此进行伪造检测,但此类伪造检测方法依赖于特定的篡改痕迹。文献[3]通过提取图像上的噪声指纹实现伪造检测。文献[4]提出了一种基于RGB流和噪声流的Faster R-CNN网络,通过RGB流提取的输入特征发现篡改痕迹,噪声流通过比对噪声特征与源区域噪声的差别检测伪造痕迹。文献[5]基于卷积神经网络构建了一种像素级的伪造图像检测方法,对GAN生成的伪造图像进行检测。文献[6]通过在Adobe Photoshop 上编写脚本,实现伪造图像内容的检测。然而,通过在传统图像伪造检测技术使用的检测模型[7-8]中加入噪声,可绕过伪造检测方法的检出。文献[9]提出了基于视频中人物是否眨眼来判断视频是否伪造,通过长期循环卷积网络(long-term recurrent convolutional networks,LRCN)[10]动态预测下一帧眼部状态,
该方法虽在EBV等数据集上表现出良好的性能[11],但是该方法难以应对攻击者有意规避检测算法而精心处理的伪造样本。
当前,深度伪造在电力场景下的应用较少,但还需防范深度伪造带来的风险。为了更好的将深度伪造检测技术应用于电力场景,本文针对深度伪造检测泛化能力不足的问题,如新型伪造方法生成的伪造图像、图像尺寸缩放的伪造图像和图像质量压缩的伪造图像等,提出基于多模态信息融合的深度伪造检测方法,并与现有深度伪造检测方法在基准数据集进行对比,从而验证本文方法的有效性。
1模态信息
每种信息的来源或形式都可以称为一种模态。狭义来讲,多媒体数据如文本、音频、图像、视频等都属于模态的一种;广义上讲,模态是指对原始数据集根据不同的特征提取方法得到的不同特征组合[12]。
针对深度伪造检测任务,独立于模态概念本身,不同的计算机视觉任务对模态有不同的定义。对于深度伪造检测任务也有特定的模态。除了常见的图像、音频、视频模态,还包含如图像分解信息模态中的频域信息。不同的模态组合成了不同的任务输入,通常情况下深度伪造检测技术被形式化为视频或图像的二分类问题[13],即挖掘真假图像/视频的鉴别性信息。不同模态形式提供了形式各异的可供真伪检测的鉴别性线索。RGB空间提供伪影、贴合痕迹等伪造线索;图像分解信息提供频域、噪声、纹理等伪造线索。
1.1RGB空间
RGB空间的单模态深度伪造检测关注图像的伪影、贴合痕迹等信息,从而发现伪造线索。
基于RGB空间图像的单模态深度伪造检测主要包含基于具体伪影线索的检测方法[14]和基于贴合痕迹的检测方法[15]。基于伪影线索的检测方法从图像处理角度出发,以像素级粒度捕捉生成图像中存在的模糊及叠影等异常现象,如发丝、牙齿中的伪影,以上伪影是生成算法在生成过程中难以建模类似发丝、牙齿等细节而留下的瑕疵。基于贴合痕迹的检测方法主要关注脸部五官区域与周围区域的光照或彩不一致,其经典做法是采用真实样本,裁出五官区域,添加模糊等后处理手段来模拟伪造样本的贴合痕迹,捕捉伪造线索。以上方法根据伪造特征的区分度高低直接影响检测算法的性能优劣,此外,由于只适配存在这种特定痕迹的伪造样本,在逼真程度较高的样
本或经过攻击者精心抹除伪造痕迹的样本上检测
性能不足。
1.2图像分解信息
基于图像分解信息的单模态深度伪造检测,关
注低层的图像滤波信息,从频谱、噪声、纹理等角
度发现伪造线索。
基于频谱信息的深度伪造检测方法,典型是
F3-Net[16],其主要技术出发点是针对压缩后的媒体
文件,如图像和视频,对于这种模糊的、低分辨率
的图像和视频,其伪造篡改痕迹在RGB空间中难
以发现,但是在频域特征中可以发现其伪造篡改痕
迹。频率信息存在对图像尺寸敏感的特性,对于经
过缩放的图像和视频往往会丢失频谱信息,导致该
检测方法鲁棒性不足。
基于图像纹理信息的深度伪造检测方法[17]通
常采用Canny边缘检测算子提取图像中的细节,虽
然能充分挖掘局部伪造细节,但是此类方法对压缩
和模糊程度敏感,高压缩和高模糊的图片难以充分
提取到其中的纹理或边沿细节,导致此类方法鲁棒
性不足。
1.3RGB与图像分解信息融合
针对前述分析可知,在原始RGB空间中,表
现不明显的伪造痕迹,会在不同的图像分解信息中
体现出特异性差异,如图2所示,第一行是真实人
脸信息,第二行是伪造人脸信息。原始RGB图像
中难以肉眼发觉的伪造痕迹,但是在噪声分布图
中,真实和伪造的人脸体现出明显的不一致,其中,
真实人脸区域噪声分布相对更加均匀,而伪造人脸
区域噪声分布较少;在纹理图中也呈现了相同规
律,真实人脸图像的纹理图可以捕捉到更多五官区
域的纹理信息,但是伪造人脸图像的纹理图却丢失
此类细节。
图2真假图像在噪声信息和纹理信息中的差异
Fig. 2 Differences between real and fake images in noise
and texture information
为了弥补RGB空间中伪造痕迹的欠缺,采用
图像分解信息与RGB空间的模态融合,从而让两
者互补鉴别性信息,提升伪造检测的性能。典型的
RGB空间与图像分解信息的多模态伪造检测方法
主要包括RGB空间信息与频域信息融合、RGB空
间信息与噪声信息相融合[18-20],相比于单模态,模
态融合的方式更具优势。
2Vision Transformer模型
Vision Transformer(ViT)是一个运用于计算机
视觉方面的Transformer,即Transformer的视觉版
本。近几年Transformer在自然语言处理领域十分
火热,也慢慢从自然语言处理逐渐应用于计算机视
觉检测任务。Transformer在图像处理中主要应用于
图像分类任务,整个网络主要分为两部分:特征提
取和图像分类。ViT模型结构如图3所示,由Linear
Projection of Flattened Patches模块、Transformer
Encoder模块和MLP Head模块组成,其中Linear
Projection of Flattened Patches模块实现图像的分块
和向量序列的生成,Transformer Encoder模块利用
注意力机制提取高维特征(见图3右侧),MLP Head
模块实现分类。
图3 ViT模型结构
Fig. 3 Typical modalities in deepfake detection
2.1 特征提取
首先将输入图像按照一定区域大小划分为图
reddit像块(Patch),本文使用卷积网络实现图像分块,设
置卷积核大小为16×16,步长也为16×16,即
PatchSize为16,基于此每个Patch的特征提取过程
不会有重叠。当输入的图片是224×224×3时,可
以获得一个14×14×768的特征层。
然后将特征层组合成序列,将14×14×768的
特征平铺成196×768的特征层,之后在图片序列
中添加上Cls Token,该Token作为一个单位的序列
信息一起进行特征提取,此时获得一个196×768
的特征层。将该序列传入Transformer Encoder中进
行特征提取,这是Transformer特有的多头自注意
力结构,通过这种自注意力机制,关注每个图像块
的重要程度。
其中ViT不需要与卷积神经网络(convolutional
neural network,CNN)相结合,只用单纯的
Transformer模型实现图像识别。具体而言,ViT使
用图像分块Patch的思想,将每个Patch看成是自
然语言处理(natural language processing,NLP)中的
1个Token,通过flatten以及嵌入层产生
Patch-embedding和Position-embedding,类似于词
向量的形式;然后就可以直接输送进Transformer
的Encoder模块,从而完成分类的任务。
2.2 图像分类
上一步中在图片序列中添加了表示单位序列
信息的Cls Token,特征提取过程中,该Token与其
他的特征进行特征交互,融合其他图片序列的特
征。最终,利用Multi-head Self-attention结构对提
取特征后的Cls Token进行全连接分类。自注意力
矩阵运算如图4所示,其中Q是查询向量、K是键
向量、V是向量的长度,Z是进行
注意力运算后得到的结果Z=Attention(Q,K,V)。
图4自注意力矩阵运算
Fig. 4 Self-attention matrix operation
3基于多模态信息融合的深度伪造检测方法
本文选取RGB空间与频域空间的模态信息融
合的深度伪造检测,并使用ViT模型作为伪造检测
的基础模型。
3.1 多模态信息融合的深度伪造检测
1)RGB空间与频域空间融合。
首先,将原始图像进行离散余弦变换(discrete
cosine transform,DCT)得到频域信息,然后将RGB
图像信息与经过DCT变换的频域信息分别使用
ViT模型进行特征提取,再将拼接的2个域的特
征进行训练,每次输入8个视频进行训练,模型如
图5所示。
图5基于ViT的多模态伪造检测模型
Fig. 5 Multimodal forgery model based on ViT
2)特征融合方式。
特征融合方式有2种,一种是元素对应相
加,简称add;另一种是把特征图堆到一起,简
称concatenate(以下简称Concat)。本文特征融合
方式是基于Concat形式,如图6所示,RGB空
间的特征与频域空间特征进行融合,需将2个特
征矩阵在某个维度叠加,这要求矩阵在连接维
度上可以相同也可以不同,但是在其他维度上
必须相等,叠加后,该维度会增加,值是2个
矩阵的该维度的相加和,如RGB空间特征矩阵
的维度是N×M×W,频域空间特征矩阵的维度是
N×M×W,2个空间特征融合后的矩阵的维度是
N×M×2W。
图6特征融合方式
Fig.6 Feature fusion method
3)交叉熵损失函数。
交叉熵损失主要度量在同一随机变量中2个概
率分布之间的差异性,经常应用在分类任务中,单
分类任务中基本全部使用交叉熵损失,二分类及多
分类任务中交叉熵损失使用十分广泛。
本文提出的多模态信息融合鉴伪任务是一个
二分类任务,需预测输入人脸图片为真或假,即只
有正例和负例,且两者的概率和是1,所以不需要
预测一个向量,只需要预测一个概率。其中ˆy是模
型预测样本是正例的概率,y是样本标签,如果样本属于正例,取值为1,否则取值为0,其数学表达式为:
loss (log()(1)log(1)ˆ)
ˆ
L y y y y
=-⋅+-⋅-(1) 交叉熵搭配Softmax使用,将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵计算损失。
3.2模型训练过程
将FaceForensics++(简称FF++)(C23)视频中提取的帧裁剪成224×224的人脸图像作为ViT 模型的输入,并分别训练了基于ViT的处理RGB 空间图像特征的模型(RGB空间)以及基于ViT的处理RGB与频域融合空间图像特征的模型(RGB+频域),数据集的批处理大小(Batchsize)分别为24和8,最大训练周期(Epoch)均为1000,初始学习率均为0.000 1,采用Adam优化器在训练过程中调整参数的学习率,损失函数使用交叉熵损失。
3.3评测标准
本文使用的评估指标为准确率(accuray,ACC)和二分类预测得分曲线下的AUC(ROC_AUC)。其中ACC定义为:
A CC=(T P+T N)/(T P+T N+F P+F N) (2) 式中:T P表示被检测为正样本,实际是正样本;T N 表示被检测为负样本,实际是负样本;F P表示被检测为正样本,实际是负样本;F N表示被检测为负样本,实际是正样本。ROC_AUC表示在ROC曲线下(0,0)和(1,1)之间的面积,基本汇总了所有阈值下的模型性能,其最优值可能为1。
4 实验及分析
本实验从RGB空间、RGB空间与图像分解信息(本实验选取图像分解信息中的频域信息)融合2方面出发,使用ViT模型实现输入特征的深度伪造检测,探索ViT模型在不同空间模态上的伪造检测性能、鲁棒性及泛化性的表现。
4.1数据集
本文采用基准人脸伪造数据集FF++,该数据集包含由4种人脸处理算法产生的人脸伪造数据,4种人脸处理算法包括DeepFakes(DF),Face2Face(F2F),FaceSwap(FS)以及NeuralTextures(NT),如表1所示,其中原始图像Pristine 37 007张,DF算法生成的图像37 005张,F2F算法生成的图像36 996张,FS算法生成的图像29 468张,NT算法生成的图像29 496张。本实验选择FF++数据集中高分辨率图像(C23)作为训练数据集。
表1数据集类型与数量分布
Table 1 Dataset type and quantity distribution
数据类型Pristine图像/张
DeepFakes
生成的图像/张
Face2Face
生成的图像/张
FaceSwap
生成的图像/张
Neural Textures
生成的图像/张
备注
FaceForensics++(C23) 37 007 37 005 36 996 29 468 29 496 训练、测试(Baseline)
FaceForensics++(C40) 37 007 37 005 36 996 29 468 29 496 测试鲁棒性CelebDF 真实图像:17 800张;伪造图像:34 000张测试泛化性
为了评估ViT模型在人脸伪造检测方面的鲁棒性与泛化性,采用FF++数据集中低分辨率图像(C40)作为评估模型鲁棒性的测试数据,使用CelebDF数据评估模型的泛化性。CelebDF数据集中共51 800张人脸图像,其中真实图像17 800张,伪造图像34 000张。
4.2实验结果
本文采用FF++(C23)数据集作为训练数据,使用ViT模型在图像RGB空间以及RGB和频域信息融合空间上进行训练,每经过一个最大训练周期保存一次模型权重,并在FF++(C23)、FF++(C40)、CelebDF数据集上对保存的权重进行分段测试,评估其伪造检测性能、鲁棒性以及泛化性,实验结果如表2和表3所示。
表2 RGB空间实验结果
Table 2 RGB space experiment results
测试项ACC/AUC结果
BASELINE(C23测试)0.923 705/0.968 112
鲁棒性(C40测试) 0.721 029/0.830 269
泛化性(CelebDF测试)0.611 216/0.742 599
表3 RGB空间与频域信息空间融合实验结果Table 3 Experimental results of RGB space and frequency domain information space fusion
测试项ACC/AUC结果BASELINE(C23测试) 0.918 572/0.964 728
鲁棒性(C40测试) 0.721 465 2/0.837 931
泛化性(CelebDF测试) 0.659 556/0.784 480
由表2可知,ViT模型在原始RGB空间上表现良好,检测性能达到了0.924/0.968,鲁棒性表现为

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。