第13卷㊀第5期Vol.13No.5㊀
智㊀能㊀计㊀算㊀机㊀与㊀应㊀用
IntelligentComputerandApplications
正则化残差
㊀2023年5月㊀
May2023
㊀㊀㊀㊀㊀㊀
文章编号:2095-2163(2023)05-0187-04
中图分类号:TP391.41
文献标志码:A
基于深度残差注意力生成网络的数据增强图像分类
张目飞1,李㊀廷1,苏㊀鹏2
(1浪潮云信息技术股份公司服务研发部,济南250000;2山东浪潮新基建科技有限公司,济南250000)
摘㊀要:图像分类可能受到许多因素的影响,本文提出用一个深度残差注意力生成网络生成图像数据来进行数据增强,增加图像数据的多样性,从而提高分类的准确率㊂通过与一些流行的深度学习分类方法做对比实验,实验结果表明本文所提出的方法在分类性能上具有竞争力,在MNIST和cirfar10数据集上分别达到了98.95%和92.68%的分类准确率㊂关键词:图像分类;残差注意力;生成网络;数据增强
Data-enhancedimageclassification
basedondeepresidualattentiongenerationnetworks
ZHANGMufei1,LIYan1,SUPeng2
(1ServiceResearchandDevelopmentDepartment,LangchaoCloudInformationTechnologyJSC,Jinan250000,China;
2ShandongLangchaoNewInfrastructureTechnologyCoLtd,Jinan250000,China)ʌAbstractɔImageclassificationmaybeaffectedbymanyfactors.Inthispaper,weproposetogenerateimagedatawithadeepresidualattentiongenerationnetworktoperformdataaugmentationandincreasethediversityofimagedata,thusimprovingclassificationaccuracy.Bydoingcomparisonexperimentswithsomepopulardeeplearningclassificationmethods,theexperimentalresultsshowthattheproposedmethodinthispaperiscompetitiveinclassificationperformance,achieving98.95%and92.68%classificationaccuracyonMNISTandcirfar10datasets,respectively.
ʌKeywordsɔresidualstructure;generativeadversarialnetworks;attentionmechanism;imageclassification
作者简介:张目飞(1985-),男,硕士,中级工程师,主要研究方向:深度学习㊁数据挖掘㊁云计算;李㊀廷(1984-),男,学士,高级工程师,主要研
究方向:图像处理㊁模式识别;苏㊀鹏(1983-),男,硕士,高级工程师,主要研究方向:大数据㊁通信系统㊂
通讯作者:张目飞㊀㊀Email:zhangmufeilc@inspur.com收稿日期:2022-12-05
0㊀引㊀言
随着个人智能设备和图像相关应用的普及,会产生大量的图像数据,如何高效㊁合理地对这些图像数据进行合理的分类是一项技术难题㊂在过去的几年中,深度神经网络(DNN)在计算机视觉和模式识别任务中,如:图像分类㊁语义分割㊁对象检测应用广泛㊂卷积神经网络中的卷积层能够捕获图像的局部特征,以获得与输入维度相似的空间表示,使用全连接层和softmax分类层生成概率表示,来达
到分类效果[1]㊂He等[2]提出了深度残差网络ResNet34,引入了残差结构,可以更好地学习残差信息,并在后续层中使用这些残差信息,提高了图像分类的性能,为深度学习领域带来了新的思路和方法㊂
许多基于深度神经网络,在网络学习过程中添加注意力机制来获得图像中感兴趣区域,通过选择给定输入的特征通道㊁区域来自动提取相关特
征[3]㊂Woo等[4]将注意力机制模块集成到CNN
中,提高网络的特征表达能力,从而提高了图像分类的准确率;Wang[5]提出了残差注意网络,残差结构可以使网络更好地学习图像中的特征,通过添加注意力模块来学习图像中的局部区域特征;Park等[6]提出了一种新的注意力机制,可以在空间和通道维度上同时进行特征加权,更加准确地捕捉到图像中的重要信息;Xi等[7]提出用残差注意模块进行特征提取,以增强分类任务中的关键特征,抑制无用的特征;Liang[8]提出将自下而上和自上而下的前馈注意力残差模块用于图像分类㊂以上工作说明残差结构和注意力机制都可以帮助模型更好地学习图像特征,提高图像分类的准确性㊂
随着数据集规模的增大和类别的增多,训练一个高准确率的分类模型变得越来越困难㊂传统的数据增强方法对原始图像进行几何变换或者对图像进行随机扰动,虽然可以增加数据集的样本量,提高分
类模型的准确率,但是这些方法无法生成新的数据分布㊂而生成网络是一种可以学习数据分布的生成模型,可以生成新的样本,从而扩大数据集并且增加数据多样性,从而可以提高分类模型的泛化性[9]㊂因此,本文提出一个深度残差注意力生成网络来生成图像数据,对数据进行必要的数据增强,利用
ResNet34网络进行图像分类㊂
1㊀深度残差注意力生成网络数据增强模型
和图像分类
1.1㊀深度残差注意力生成网络模型结构设计
本文提出了一个深度残差注意力生成网络模型用于图像数据增强,主要结构包括生成器㊁判别器和残差注意力模块㊂生成器包含4个反卷积层(DConv)和3个残差注意力模型(SPAM),残差注意
力模型能够对图像的重点区域进行特别关注,以生成高质量的图像,在生成器的最后一层使用Tanh函数将数据映射到[-1,1]的区间内;判别器包括4个卷积层(Conv),能够提取图像细节特征㊂深度残差注意力生成网络模型结构如图1所示㊂
㊀㊀生成网络由生成器和判别器组成㊂生成器将随机向量Z作为输入,学习真实数据分布p(x)从而合成逼真的图像;判别器区分生成的图像与真实的图像,其输出表示从真实分布p(x)提取样本y的概率㊂生成网络的最终目标是让生成器生成和真实图像相同的数据分布,而判别器无法判定图像为真实图像还是生成图像,达到一个纳什平衡㊂在生成器和判别器相互博弈的过程中,生成网络的目标函数定义为公式(1):㊀㊀
minG
maxD
LGAN=Ex p(x)[logD(x)]+
㊀㊀㊀㊀Ez p(z)[log(1-D(G(z)))]
(1)
其中,p(x)表示真实数据分布;p(z)表示生成
数据分布;D(x)表示判别器运算;G(z)表示生成器运算㊂
Z =100
D C o n v 1
S P A M
D C o n v 2
S P A M
D C o n v 3
S P A M
D C o n v 4+T a n h
生成器结构
训练
判别器结构
差别
真/假
训练
真实图像
C o n v 4C o n v 3C o n v 2C o n v 1
生成图像
图1㊀深度残差注意力生成网络模型结构
Fig.1㊀Deepresidualattentiongenerationnetworkmodel
㊀㊀本文随机选取Z=100维的随机数据作为生成器的输入,经过生成器生成图像;判别器网络的输入为生成图像和真实图像,判别器网络指导生成器合成图像,鼓励生成器捕捉更为精细的特征细节,使得生成器生成的图像和真实图像难以区分㊂
残差注意力模型使具有相似特征的区域相互增强,以突出全局视野中的感兴趣区域,残差注意力模型如
图2所示㊂通过sigmoid函数可以得到一个[0,1]的系数,给每个通道或空间分配不同的权重,
可以给每个特征图分配不同的重要程度㊂
28?28?64
C o n v +B N C o n v S i g m o i d O u t p u t
图2㊀残差注意力模型Fig.2㊀Residualattentionmodel
㊀㊀本文设CˑHˑW为残差注意力模型的输入,C
为特征图的数量,H和W分别表示为图像的高度和
宽度;通过卷积和批量归一化运算对输入的特征进行处理,利用Sigmoid函数得到空间注意系数S;将
81智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀
输入的特征图和通过注意力模型得到的特征图利用残差结构进行融合,得到最终的残差空间注意力特征表示,公式(2)和公式(3):
S=sigmoid(Conv(X))(2)
Output=S㊃X+X(3)㊀㊀其中,X表示空间注意模型的输入,Conv表示卷积运算㊂
1.2㊀数据预处理和图像分类
首先,对输入图像进行数据预处理,主要包括:将图像裁剪为28ˑ28的大小,并进行随机旋转和对比度增强;其次,将预处理的数据送入到深度残差注意力生成网络中进行数据增强㊂深度残差注意力生成网络通过学习图像不变性特征,合成高质量的数据,注意力机制对图像的感兴趣区域进行重点关注;生成器通过学习随机数据来生成感兴趣的图像分布,判别器学习真实样本的分布,辨别生成器生成的图像;同时训练生成器和判别器,促使两者竞争,在理想情况下,生成器可以生成近似于真实的图像数据,而判别器不能将真实图像与生成图像区分,从而达到纳什平衡,达到数据增强的目的;最后,利用ResNet34网络对增强的图像数据进行分类㊂
2㊀实验结果分析
2.1㊀实验参数设置
本文使用PyTorch深度学习框架来训练模型,GPU为NVIDIATeslaV100,显存为32GB㊂采用Adam算法优化损失函数,采用小批量样本的方式训练深度学习模型,batch_size设置为64,在训练的过程中采用固定步长策略调整学习率,初始学习率设置为0.0001,gamma值为0.85,L2正则化系数设置为0.0001,迭代次数为50000次㊂
2.2㊀数据集
本文采用的数据集为MNIST数据集和cirfar10数据集㊂MNIST数据集一共有70000张图片,其中60000张作为训练集,10000张作为测试集,每张图片由28ˑ28的0 9的手写数字图片组成;cirfar10数据集由60000张32ˑ32的彩图片组成,一共有十个类别,每个类别有6000张图片,其中50000张图片作为训练集,10000张图片作为测试集㊂2.3㊀实验结果
使用深度残差注意力生成网络分别对MNIST和cirfar10数据集中的图像进行图像增强,使得图像的特征更加多样,对MNIST数据集进行数据增强的效果如图3所示,对cirfar10数据进行数据增强的效果如图4所示
图3㊀MNIST数据集数据增强的效果
Fig.3㊀EffectofdataenhancementofMNIST
dataset
图4㊀cirfar10数据集数据增强的效果
Fig.4㊀Effectofdataenhancementonthecirfar10dataset㊀㊀从图3和图4可以看出,使用深度残差注意力生成网络对MNIST和cirfar10数据集进行数据增强,具有很强的视觉可读性,同时也具有较清晰的纹理特征,实现了数据增强,扩充了数据集㊂
为了验证本文模型数据增强后的MNIST以及cirfar10数据在分类方面的效果,选择CNN㊁ResNet18㊁ResNet34㊁ResNet50和ResNet101作为分类网络做对比实验㊂第一组测试增强数据的分类准确率;第二组,测试原始数据的分类准确率;第三组,将增强数据和原始数据各拿出50%组成新的数据集进行测试,实验结果见表1和表2㊂
表1㊀MNIST数据集分类准确率实验结果(%)
Tab.1㊀ExperimentalresultsofclassificationaccuracyofMNISTdataset(%)
模型生成数据原始数据生成+原始
CNN96.4997.8498.36
ResNet1896.9397.9298.52
ResNet3497.2698.0298.95
ResNet5096.4397.6598.35
ResNet10196.7397.1797.96
(下转第196页)
981
第5期张目飞,等:基于深度残差注意力生成网络的数据增强图像分类
具有对纹理和边缘的双重抵抗,在传统引导滤波的基础上,利用二次引导滤波去除图像的纹理和高频噪声,同时保留JPEG图像原来的边缘特性,使用改进人工蜂算法进行边缘提取和移除,有效地抑制图像中高频纹理和边缘对直方图周期性的干扰;使用交叉差分图像的方式来凸显块效应,更精确地提取直方图,减少重采样中下采样估计的误差,提高了算法性能,增强算法鲁棒性㊂
参考文献
[1]高铁杠杨富圣盛国瑞.一种新的基于DCT域系数对直方图的图像篡改取证方法[J].光电子.激光,2014,25(11):2196-2202.
[2]ZHANGZL,CAOTT.Unbalanceddataclassificationalgorithmbasedonresamplingandfeatureselection[J].JournalofChineseComputerSystems,2020,41(6):1327-1333.
[3]PENGF,ZHAOY,ZHANGX,etal.ReversibledatahidingbasedonRSBEMDcodingandadaptivemulti-segmentleftandrighthistogramshifting[J].SignalProcessing:ImageCommunication,2020,81:115715.
[4]LIUYX,YANGCN,SUNQD,etal.EnhancedembeddingcapacityfortheSMSD-baseddata-hidingmethod[J].SignalProcessing:ImageCommunication,2019,78:216-222.[5]BIRAJDARGK,MANKARVH.Blindmethodforre
scalingdetectionandrescalefactorestimationindigitalimagesusingperiodicpropertiesofinterpolation[J].AEU-InternationalJournalofElectronicsandCommunications,2014,68(7):644-652.[6]VAZQUEZ-PADIND,COMESANAP,PEREZ-GONZALEZF.AnSVDapproachtoforensicimageresamplingdetection[C]//201523rdEuropeanSignalProcessingConference(EUSIPCO).IEEE,2015:2067-2071.
[7]KIRCHNERM,GLOET.Onresamplingdetectioninre-compressedimages[C]//2009FirstIEEEinternationalworkshoponinformationforensicsandsecurity(WIFS).IEEE,2009:21-25.[8]RANW,PINGX.Detectionofresamplingbasedontexturecomplexityandsingularvaluedecomposition[J].JournalofComputer-AidedDesign&ComputerGraphics,2010,22(9):1606-1612.
[9]BAYARB,STAMMMC.OntherobustnessofconstrainedconvolutionalneuralnetworkstoJPEGpost-compressionforimageresamplingdetection[C]//IEEEInternationalConferenceonAcoustics.IEEE,2017:2152-2156.
[10]CAOG,ZHOUAT,HUANGXL,etal.Resamplingdetectionofrecompressedimagesviadual-streamconvolutionalneuralnetwork[J].MathematicalBiosciencesandEngineering,2019,16(5):5022-5040.
[11]GALLAGHERAC.DetectionoflinearandcubicinterpolationinJPEGcompressedimages[C]//The2ndCanadianConferenceonComputerandRobotVision(CRVᶄ05).IEEE,2005:65-72.
(上接第189页)
表2㊀cirfar10数据集分类准确率实验结果(%)
Tab.2㊀Experimentalresultsofclassificationaccuracy(%)forthecirfar10dataset
模型生成数据原始数据生成+原始
CNN90.3691.5691.83
ResNet1890.7991.8292.07
ResNet3491.8392.0392.68
ResNet5090.3191.8592.43
ResNet10190.3791.7191.95㊀㊀通过表1和表2可以看出,使用深度残差注意力生成网络进行数据增强能够提高数据集的分类效果,证明本文提出的模型是切实有效的㊂利用本文模型进行数据增强的数据和原始数据相结合,在MNIST数据集上达到了98.95%的准确率,在cirfar10数据集上达到了92.68%的准确率㊂
3㊀结束语
本文提出了一种深度残差注意力生成网络用于数据增强,从而提高分类的准确率㊂实验结果证明,该模型在MNIST数据集上获得了98.95%的准确率,准确率提高了0.93个百分点;在cirfar10数据集上获得了92.68%的准确率,准确率提高了0.65个百分点㊂本文模型的提出,为数据增强提供了一种解决思路和方式㊂
参考文献
[1]YKRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenet
classificationwithdeepconvolutionalneuralnetworks[J].CommunicationsoftheACM,2017,60(6):84-90.[2]HEK,ZHANGX,RENS,etal.Deepresiduallearningforimage
recognition[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2016:770-778.[3]HUJ,SHENL,SUNG.Squeeze-and-excitationnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2018:71
32-7141.
[4]WOOS,PARKJ,LEEJY,etal.Cbam:Convolutionalblockattentionmodule[C]//ProceedingsoftheEuropeanConferenceonComputerVision(ECCV).2018:3-19.
[5]WANGF,JIANGM,QIANC,etal.Residualattentionnetworkforimageclassification[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2017:3156-3164.[6]PARKJ,WOOS,LEEJY,etal.Bam:Bottleneckattentionmodule[J].arXivpreprintarXiv:1807.06514,2018.[7]XIB,LIJ,LIY,etal.Deepprototypicalnetworkswithhybridresidualattentionforhyperspectralimageclassification[J].IEEEJournalofSelectedTopicsinAppliedEarthObservationsandRemoteSensing,2020,13:3683-3700.
[8]LIANGL,CAOJ,LIX,etal.Improvementofresidualattentionnetworkforimageclassification[C]//IntelligenceScienceandBigDataEngineering.VisualDataEngineering:9thInternationalConference,IScIDE2019,Nanjing,China,October17-20,2019,Proceedings,PartI.Cham:SpringerInternationalPublishing,2019:529-539.
[9]ALI-GOMBEA,ELYANE,JAYNEC.MultiplefakeclassesGANfordataaugmentationinfaceimagedataset[C]//2019InternationalJointConferenceonNeuralNetworks(IJCNN).IEEE,2019:1-8.
691智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第13卷㊀

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。