㊀第37卷第6期㊀㊀㊀㊀㊀佳木斯大学学报(自然科学版)㊀㊀Vol.37No.6㊀2019㊀年11月㊀㊀㊀㊀JournalofJiamusiUniversity(NaturalScienceEdition)㊀Nov.㊀2019
文章编号:1008-1402(2019)06-1001-05
基于改进的多通道卷积神经网络模型的图像分类方法①
周衍挺
(安徽理工大学数学与大数据学院ꎬ安徽淮南232001)
摘㊀要:㊀为了充分提取图像特征信息ꎬ同时减轻模型过拟合ꎬ提出了一种改进的多通道卷积神经网络模型ꎮ首先ꎬ利用三条卷积通道提取图像特征信息ꎬ各通道选择不同的卷积核大小ꎬ并利用小卷积核堆叠代替大卷积核的方法减少模型参数ꎬ再采用特征融合与批标准化技术对特征信息进行处理ꎬ最后输入到softmax分类器进行分类ꎮ将改进模型㊁单通道模型㊁多通道模型㊁传统图像分类模型用于对CIFAR-10数据集进行分类ꎮ实验结果表明ꎬ改进模型可以有效提取图像特征信息ꎬ减轻过拟合ꎬ进而提升模型的分类精度ꎮ
关键词:㊀卷积神经网络ꎻ多通道ꎻ图像分类ꎻ批标准化
中图分类号:㊀TP391.4㊀㊀㊀㊀文献标识码:㊀A
0㊀引㊀言
自2012年Hinton和AlexKrizhevsky用Alex ̄Net模型[1]夺得ImageNet视觉挑战赛冠军后ꎬ卷积神经网络(ConvolutionalNeuralNetworkꎬCNN)成为了图像分类[2 3]的主流模型ꎮ传统的单通道卷积神经网络对图像进行卷积处理后ꎬ会损失一些重要的图像特征ꎬ使得模型的图像分类性能下降ꎮ针对上述问题ꎬ冯家文等[4]提出一种双通道卷积神经网络ꎬ利用大小不同的卷积核提取手势图像的特征ꎮ文元美等[5]提出了一种基于高低维度特征融合的双通道卷积神经网络ꎬ让模型同时利用图像的高级与低级维度信息对图像进行识别ꎮ
文献[4]及文献[5]提出的多通道卷积神经网络能够有效提取图像特征ꎬ但是其通道数较多ꎬ使得模型参数增加ꎬ从而导致过拟合现象ꎮ因此ꎬ为了降低计算量和减轻过拟合现象ꎬ文中给出了一种改进的多通道卷积神经网络ꎮ各通道采用不同大小的卷积核ꎬ从而可以有效地提取图像全局与局部特征信息ꎮ此外ꎬ在改进模型中引入批标准化㊁Dropout㊁L2正则化ꎬ并对输入数据做数据增强处理ꎬ从而减轻模型的过拟合ꎬ有效提升模型在数据集上的分类精度ꎮ1㊀模型相关技术
1.1㊀CNN简介
CNN主要由卷积层㊁池化层以及全连接层构成ꎮ卷积层由多个特征图(FeatureMapꎬFM)以及卷积核组成ꎬ卷积核在特征图上按固定步长移动ꎬ并且与局部感受野对应位置进行卷积运算ꎬ再加上偏置值ꎬ最后经过激活函数得到输出值ꎮ文中选取的是Relu激活函数ꎬ该函数可以减少计算量ꎬ防止梯度消失ꎮ卷积层的数学表达式为:
Aki=max(Wki Aki-1+bkiꎬ0)(1)其中用i表示层数ꎬ 表示卷积运算ꎬ网络的第i层的第k个特征图用Aki表示ꎬ第i层的第k个卷积核由权重矩阵Wki和偏置项bki决定ꎮ池化层可以整合特征图中相邻神经元的输出ꎬ从中提取出图像主要特征ꎮ文中选取的方法是最大池化ꎬ该池化操作是计算每个区域的最大值作为输出ꎮ全连接层对提取出的图像特征信息做进一步降维处理ꎬ再输入分类器进行分类ꎮ
①收稿日期:2019-10-25
基金项目:国家自然科学基金(11601007)ꎮ
作者简介:周衍挺(1996-)ꎬ男ꎬ浙江台州人ꎬ硕士ꎬ研究方向:机器学习与图像处理ꎮ
佳木斯大学学报(自然科学版)2019年1.2㊀正则化
在CNN训练过程中ꎬ如果训练数据过少ꎬ而模型本身参数过多ꎬ就容易造成过拟合现象ꎮ为了防止网络
过拟合ꎬ一般采用一些正则化方法来限制网络的参数ꎬ模型采用的正则化方法有Dropout㊁L2正则化以及批标准化ꎮDropout技术可以使模型在训练时的神经元输出值以一定的概率变为0ꎬ使这些神经元节点失效ꎬ网络结构变得简单ꎬ从而避免模型对于某一个特征过拟合ꎮL2正则化通常是在损失函数中加入权重的L2范数ꎬ从而减小模型中权重的取值ꎮ正则化后损失函数的具体数学表达式为:
C=C0+αðjwj2(2)C0为原始的损失函数ꎬ后面加上L2正则化项ꎬ表示对权重平方求和ꎬα表示正则化项在损失函数中所占比例ꎮ
由于深度学习中数据集过大ꎬ通常是一批一批送到网络里训练ꎮ数据在训练过程中ꎬ随着不断的卷积处理ꎬ每个批次的数据分布会有很大的变化ꎮ当训练样本与测试样本的数据分布有很大差别时ꎬ模型的泛化能力会减弱ꎮ批标准化(BatchNormal ̄izationꎬBN)[6]可以使CNN的输入值通过规范化处理后ꎬ保持固定的均值和方差ꎬ减少不同批次之间差别ꎬ从而加快训练速度ꎬ降低模型的过拟合ꎮ批标准化的公式为:
x-(k)=x(k)-E(x(k))
varx(k)
()(3)x-(k)表示某一个训练的批次ꎬE(x(k))表示全部训练集的均值ꎬvar(x(k))表示训练集方差ꎮ1.3㊀特征融合
多通道卷积神经网络的特征融合层可以将具有差异性的特征信息进行融合ꎬ使融合后的特征信息区分度更高ꎬ对于图像的表达能力更好ꎮ特征融合的过程如图1所示ꎬ假设输入图像经过多通道卷积神经网络中各通道的卷积池化处理后ꎬ分别可以得到XꎬYꎬZ张大小为3ˑ3的特征图ꎮ再把特征图在特征通道维数上进行合并ꎬ得到一组数量为X+Y+Z的特征图ꎬ同时保持特征图尺寸不变ꎮ然后将二维的图片数据转化成一维的特征向量ꎬ并将这组数据进行批标准化处理ꎬ使得数据分布更加分散
ꎬ更加接近测试集的数据分布ꎬ从而减轻模型过
拟合ꎮ最后将处理后的一维数据输入全连接层进行特征信息融合
图1㊀特征融合过程
图2㊀单通道卷积神经网络结构图
图3㊀改进的多通道卷积神经网络结构图
2㊀改进的多通道卷积神经网络2.1㊀改进模型的网络结构
运用CNN对图像进行分类ꎬ其分类的效果与卷积核的大小是密切相关的ꎮ尺寸大的卷积核感受野的范围也大ꎬ有助于对全局信息的提取ꎬ然而也会导致图像的细小特征丢失ꎮ尺寸小的卷积核可以充分提取图像局部信息ꎬ但是当图像的数据特别稀疏的时候ꎬ不能有效提取出图像特征信息ꎮ图
2为单通道卷积神经网络结构ꎬ该模型卷积核单一ꎬ将会导致图像全局与局部特征信息在卷积提取的过程中有所丢失ꎮ而多通道卷积神经网络采用不同大小的卷积核提取图像特征ꎬ减少图像信息的
2001
第6期周衍挺:基于改进的多通道卷积神经网络模型的图像分类方法
损失ꎬ但是通道数的增加导致了参数的增多ꎬ使模型过拟合严重ꎬ进而降低图像的分类精度ꎮ
针对上述单通道与多通道卷积神经网络的局限性ꎬ给出了一种改进的多通道卷积神经网络ꎮ图
3为改进模型的网络结构ꎬ模型的特征提取层采用三个通道并联的架构ꎬ包含12个卷积层ꎬ9个池化层
ꎬ后面连接特征融合层以及输出层ꎮ各个通道中卷积核类型各不相同ꎬ选取在CIFAR-10数据集分类中常用的几种卷积核ꎬ大小分别为2ˑ2ꎬ3ˑ3ꎬ5ˑ5ꎬ其中5ˑ5卷积核用两个3ˑ3卷积核代替ꎮ两个3ˑ3卷积核堆叠之后感受野与一个5ˑ5卷积核相当ꎬ并使网络结构更深ꎬ增强了模型的非线性映射能力ꎬ同时可以减少网络参数ꎬ减轻过拟合ꎮ例如:假设卷积层输入输出均为C通道ꎬ5ˑ5卷积核所需参数数目为5ˑ5ˑC2ꎬ两个3ˑ3卷积核参数只有2ˑ3ˑ3ˑC2ꎮ
2.2㊀改进模型的图片分类过程
表1㊀改进模型的各通道参数通道一
层名卷积核(池化
大小)/步长
输出尺寸
(CˑHˑW)
通道二
层名
卷积核(池化
大小)/步长
输出尺寸
(CˑHˑW)
通道三
层名
卷积核(池化
大小)/步长
输出尺寸
(CˑHˑW)
input 3ˑ24ˑ24input 3ˑ24ˑ24input 3ˑ24ˑ24
conv43ˑ3/164ˑ24ˑ24
conv12ˑ2/164ˑ24ˑ24conv53ˑ3/164ˑ24ˑ24conv103ˑ3/164ˑ24ˑ24pool12ˑ2/264ˑ12ˑ12pool42ˑ2/264ˑ12ˑ12pool72ˑ2/264ˑ12ˑ12
conv63ˑ3/164ˑ12ˑ12
conv22ˑ2/164ˑ12ˑ12conv73ˑ3/164ˑ12ˑ12conv113ˑ3/164ˑ12ˑ12pool22ˑ2/264ˑ6ˑ6pool52ˑ2/264ˑ6ˑ6pool82ˑ2/264ˑ6ˑ6
conv83ˑ3/164ˑ6ˑ6
conv32ˑ2/164ˑ6ˑ6conv93ˑ3/164ˑ6ˑ6conv123ˑ3/164ˑ6ˑ6pool32ˑ2/264ˑ3ˑ3pool62ˑ2/264ˑ3ˑ3pool92ˑ2/264ˑ3ˑ3
㊀㊀表1列出了改进模型的各通道参数ꎮ如表所示ꎬ输入图像为24ˑ24的3通道图像ꎬ表1中的C㊁H㊁W分别代表图像的通道数㊁高度和宽度ꎮ模型的卷积填充方式为same模式ꎬ步长取1ꎬ使得每次卷积处理之后特征图的大小不变ꎮ此外ꎬ图像数据在卷积运算之后ꎬ都会经过批标准化处理ꎬ使下一层的输入数据有一个稳定的分布ꎬ加快训练速度ꎮ再经过Relu激活函数的处理ꎬ增强模型的非线性拟合能力
ꎮ最后3个通道的输出都为64个3ˑ3的特征图ꎮ
对三个通道提取出来的特征图进行特征融合ꎬ特征融合过程如图1所示ꎮ三个通道提取出的特征信息具有一定的差异性ꎬ通道二提取出的特征比通道一㊁通道三具备更多的全局性特征ꎬ主要由于通道二的3ˑ3卷积核堆叠之后感受野大于2ˑ2卷积核ꎬ3ˑ3卷积核ꎬ且网络结构更深ꎬ具备了更大的视野ꎮ因此特征融合处理既考虑了图像局部特征(通道一㊁通道三)ꎬ又结合了图像的全局信息(通道二)ꎮ最后将融合后的特征信息通过softmax分类器输出分类结果ꎮ3㊀实验仿真
3.1㊀实验环境与数据集
实验操作系统为Windows7ꎬ主频为2.60GHzꎬ显卡为GTX-1060ꎬ并且以Tensorflow(GPU版本)为框架ꎬ使用Python3.6为开发语言ꎮ采用的数据集为CIFAR-10公开数据集ꎬ该数据集有60000张32ˑ32的彩图片ꎬ分为卡车㊁飞机㊁猫等10个类别ꎬ其中50000张作为训练图片ꎬ另外10000张作为测试图片ꎬ图4为CIFAR-10部分数据集ꎮ实验对于输入数据集做了数据增强处理ꎬ如图5所示ꎬ对于32ˑ32的原始图片进行随机裁剪㊁翻转ꎬ得到大小为24ˑ24的输入图片ꎬ并且调整图片对比度㊁亮度ꎮ数据增强相当于增加了更多的数据集ꎬ可以有效的防止图像分类过程中的过拟合问题ꎮ3.2㊀实验设置
为了验证改进模型的图像分类能力ꎬ设计了3类具有不同卷积核的单通道卷积神经网络ꎬ分别称
3001
佳木斯大学学报(自然科学版)2019年
为CNN-1㊁CNN-2㊁CNN-3ꎮ3类单通道卷积神经网络的卷积层池化层分别与通道一㊁通道二㊁通道三相同ꎬ后面均连接一个全连接层以及softmax分类器ꎮ全连接层的神经元个数均设置为512ꎬ实验每个训练批次为128ꎮ另外ꎬ为了减轻模型过拟合ꎬ在改进模型与3类单通道卷积神经网络的全连接层后添加Dropout机制ꎬ并对全连接层的权重进行L2正则化惩罚ꎮDropout值与L2正则化系数设置太大或太小都不利于最后的分类效果ꎮ经过多次实验ꎬ将Dropout值设置为0.8ꎬ正则化系数设置为0.
01ꎮ
图4㊀CIFAR-10
部分数据集
图5㊀图片数据增强
此外ꎬ为了验证小卷积核堆叠代替大卷积核的方法具有减轻模型过拟合的效果ꎬ设计了CNN-4与CNN-5ꎮCNN-4将CNN-2中两层2ˑ2卷积核堆叠改为一层5ˑ5卷积核ꎬ其余设置与CNN-2相同ꎮCNN-5将改进模型中通道二的两层2ˑ2卷积核堆叠改为一层5ˑ5卷积核ꎬ其余设置
与改进模型相同ꎮ每个模型均进行5次实验ꎬ测得分类精度后ꎬ取平均值ꎮ最后将改进模型与4类单通道卷积神经网络㊁5类多通道卷积神经网络㊁2类传统图像分类模型在CIFAR-10数据集上进行测试比较ꎮ3.3㊀实验结果
表2为各模型在CIFAR-10上的分类准确正则化包括dropout
率ꎮPCANet[7](PrincipalComponentAnalysisNet ̄work)是一种基于主成分分析的传统图像分类模型ꎬ在各个数据集分类中均有很好的分类效果ꎮK-means+SVM[8](K-means+SupportVectorMa ̄
chine)算法在图像分类过程中具有高鲁棒性ꎬ是准确率最高的传统图像分类模型ꎮ
文献[5]中双通道模型(5ˑ5&3ˑ3)可以利用不同的卷积核对图像进行处理ꎬ具有较高的图像分类精度ꎬ而融合低级特征的双通道模型(5ˑ5&
3ˑ3)可以进一步结合第一池化层的特征信息ꎬ充分利用图像的高级以及低级维度信息对图像进行分类ꎮ
SCNN[9](SymmetricConvolutionalNeuralNetwork)通过捕获模型左右子网络的差异值来增强模型的特征提取能力ꎬ进而提升图像的分类精度ꎮDMCNN[10](DetachedMultipleConvolutionalNeuralNetwork)可以提取通道特征与卷积特征ꎬ并在全连接层进行融合ꎬ以此提升该网络的图像识别与分类效果ꎮ
表2㊀各模型在CIFAR-10上的分类准确率
模型种类
模型名称分类准确率%
传统图像分类模型
PCANet
78.67K-means+SVM
79.60CNN-1(2ˑ2卷积核)82.41CNN-2(3ˑ3卷积核堆叠)
87.44单通道卷积CNN-3(3ˑ3卷积核)85.04神经网络
CNN-4(5ˑ5卷积核)85.25双通道模型(5ˑ5&3ˑ3)
75.33融合低级特征的双通道模型(5ˑ5&3ˑ3)
77.02多通道卷积SCNN82.20神经网络
DMCNN
86.75CNN-5(2ˑ2&3ˑ3&5ˑ5)
85.48改进模型
89.02
㊀㊀从表2中可以看出改进的多通道卷积神经网
络在CIFAR-10数据集上的分类准确率明显优于
2类传统图像分类模型㊁4类单通道卷积神经网络以及5类多通道卷积神经网络ꎮ改进模型相比于包含单一卷积核的单通道卷积神经网络CNN-1㊁CNN-2以及CNN-3ꎬ精度分别提升了6.61%㊁1.58%㊁3.98%ꎮ说明了改进的多通道卷积神经网络相比于单通道卷积神经网络可以更好的提取
图像全局与局部特征信息ꎬ进而提升模型的分类准确率ꎮ而CNN-2相比于CNN-4ꎬ分类精度提升
001
第6期周衍挺:基于改进的多通道卷积神经网络模型的图像分类方法
了2.19%ꎬ改进模型相比于CNN-5ꎬ分类精度提升了3.54%ꎬ说明了小卷积核堆叠代替大卷积核可以有效减轻模型过拟合ꎬ进而提升图像分类精度ꎮ
此外ꎬ与文献[5]中的两类多通道卷积神经网络相比较ꎬ改进模型的精度也分别提升了13.
69%㊁12%ꎬ主要由于本文模型相比于文献[8]中的模型ꎬ多了一条包含2ˑ2卷积核的通道ꎬ并在各个通道增添了一层卷积层与池化层ꎬ使得模型的特征提取能力有所提升ꎮ其次ꎬ模型用3ˑ3卷积核堆叠代替5ˑ5卷积核ꎬ减少了网络参数ꎬ并在模型中引入批标准化㊁Dropout㊁L2正则化以及对输入数据做了数据增强处理ꎬ极大的减轻了模型过拟合ꎮ另外ꎬ模型分类精度相比于SCNN与DMCNN分别提升了6.82%㊁2.27%ꎬ进一步验证了本文方法的有效性与可行性ꎮ
4㊀结㊀论
通过对单通道与多通道卷积神经网络的优缺点分析ꎬ给出了一种改进的多通道卷积神经网络模型ꎮ该模型使用3类大小不同的卷积核对输入图像进行特征提取ꎬ使得模型可以提取更加丰富的特征信息ꎬ并且采用小卷积核堆叠代替大卷积核㊁批标准化㊁Dropout㊁L2正则化以及对输入数据做数据增强处理的方法来减轻模型的过拟合ꎮ实验结果表明ꎬ使用小卷积核堆叠代替大卷积核可以减少模型参数ꎬ从而有效减轻模型过拟合ꎮ改进模型可以更好的提取图像全局与局部特征信息ꎬ同时防止过拟合ꎬ进而取得更高的图像识别精度ꎮ但是多通道模型还有很大的提升空间ꎬ后续的研究工作是通过结合更多高效的深度学习方法ꎬ来引入更多的图像深层特征信息ꎬ进一步提升模型的图像分类能力ꎮ
参考文献:
[1]㊀KrizhevskyAꎬSutskeverIꎬHintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[C].InternationnalConferenceonNeuralInformationProcessingSystems.CurranAssociatesInc.2012:1097-1105.
[2]㊀刘雨桐ꎬ李志清ꎬ杨晓玲.改进卷积神经网络在遥感图像分类中的应用[J].计算机应用ꎬ2018ꎬ38(4):949-954. [3]㊀崔雪红ꎬ刘云ꎬ王传旭ꎬ等.多路卷积神经网络的轮胎缺陷图像分类[J].计算机工程与设计ꎬ2018ꎬ39(3):873-879.
[4]㊀冯家文ꎬ张立民ꎬ邓向阳.双通道卷积神经网络在静态手势识别中的应用[J].计算机工程与应用ꎬ2018ꎬ54(14):148
-152.
[5]㊀文元美ꎬ罗志鹏ꎬ凌永权.基于高低维度特征融合的双通道卷积神经网络[J].计算机与现代化ꎬ2018ꎬ280(12):105
-109.
[6]㊀IoffeSꎬSzegedyC.BatchNormalization:AcceleratingDeepNetworkTrainingbyReducingInternalCovariateShift[C].
Proceedingsofthe32ndInternationalConferenceMachine
Learning.LilleꎬFrance:IEEEꎬ2015:448-456. [7]㊀ChanTHꎬJiaKꎬGaoSꎬetal.PCANet:ASimpleDeepLearn ̄ingBaselineforImageClassification[J].IEEETransactionso
nImageProcessingꎬ2015ꎬ24(12):5017-5032. [8]㊀CoatesAꎬNgAYꎬLeeH.AnAnalysisofSingle-LayerNet ̄worksinUnsupervisedFeatureLearning[C].Procofthe14thInternationalConferenceonArtificialIntelligenceandStatistics.
NewYorkꎬUSA:JMLRꎬ2011:215-223.
[9]㊀石祥滨ꎬ阳柯ꎬ张德园.基于对称神经网络的图像分类[J].
小型微型计算机系统ꎬ2017ꎬ38(3):578-583.
[10]㊀宋超ꎬ许道云ꎬ秦永彬.分离多路卷积神经网络研究[J].
计算机工程ꎬ2017ꎬ43(6):145-149.
ResearchonImageClassificationMethodBasedonImproved
Multi-channelConvolutionalNeuralNetworkModel
ZHOUYan-ting
(CollegeofMathematicsandBigDataꎬAnhuiUniversityofScienceandTechnologyꎬHuainanAnhui232001ꎬChina)
Abstract:㊀Inordertofullyextractimagefeatureinformationandreducetheoverfittingꎬthispaperpropo ̄sesanimprovedmulti-channelconvolutionalneuralnetworkmodel.Firstꎬtheimprovedmodelextractsimagefeatureinformationbyusingthreeconvolutionchannels.Eachchannelsetsdifferentsizesofconvolutionkernelꎬandreducesmodelparametersbystackingsmallconvolutionkernelinsteadoflargeconvolutionkernelꎬandthenprocessfeatureinformationbyfeaturefusionandbatchnormalizationtechnology.Finallyꎬthefeatureinformationisinputtothesoftmaxclassifiertoclassify.Theimprovedmodeliscompa
redwithsingle-channelmodelꎬmulti-channelmodelandtraditionalimageclassificationmodelforCIFAR-10dataset.Theexperimentalresultsshowthattheimprovedmodelcaneffectivelyextractimagefeatureinformationꎬreducetheover-fittingꎬandim ̄provetheclassificationaccuracyofthemodel.
Keywords:㊀convolutionalneuralnetworkꎻmultichannelꎻimageclassificationꎻbatchnormalization
5001

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。