第46卷第12期自动化学报Vol.46,No.12 2020年12月ACTA AUTOMATICA SINICA December,2020
基于深度学习的高噪声图像去噪算法
盖杉1鲍中运1
摘要为了更有效地实现高噪声环境下的图像去噪,本文提出一种基于深度学习的高噪声图像去噪算法.该算法首先采用递增扩充卷积并且融合批量标准化和Leaky ReLU函数对输入含噪图像进行特征提取与学习;然后通过结合递减扩充卷积和ReLU函数对提取的特征进行图像重构;最后通过整合残差学习和批量标准化的端到端网络实现图像与噪声的有效分离.实验结果表明,本文提出的算法不仅能够有效地去除高噪声环境下的图像噪声,获得更高的峰值信噪比(Peak signal-to-noise ratio,PSNR)与结构相似度(Structural similarity index,SSIM),而且还能够有效地改善图像的视觉效果,具有较好的实用性.
关键词深度学习,图像去噪,卷积神经网络,残差学习,批量标准化
引用格式盖杉,鲍中运.基于深度学习的高噪声图像去噪算法.自动化学报,2020,46(12):2672−2680
DOI10.16383/j.aas.c180271
High Noise Image Denoising Algorithm Based on Deep Learning
GAI Shan1BAO Zhong-Yun1
Abstract In order to perform image denoising in high-noise environment more effectively,a high-noise image denoising algorithm based on deep learning is proposed in this paper.Firstly,the proposed algorithm utilized increased expanded convolutional and combined the batch normalization and Leaky ReLU function to extract and learn for the features of noisy image.Secondly,the extracted feature via the decreased expansion convolution and ReLU function for image reconstruction.Finally,the effective separation of image and noise is realized by end-to-end network of integrating the residual learning and batch standardization.The experimental results illustrated that the proposed algorithm removed the image noise more effectively and obtain higher peak signal-to-noise ratio(PSNR)and structural similarity index(SSIM) under high noise environment.In addition,the proposed algorithm also significantly improved the visual effects of images, and had a good practicality.
Key words Deep learning,image denoising,convolutional neural networks(CNN),residual learning,batch normalization Citation Gai Shan,Bao Zhong-Yun.High noise image denoising algorithm based on deep learning.Acta Automatica Sinica,2020,46(12):2672−2680
在实际应用中,数字图像在传输过程中往往会受到成像设备与外部噪声环境干扰等因素的影响,导致采
集的图像质量明显下降.鉴于计算机视觉等许多科学领域对图像质量提出更高的要求,因此图像去噪仍然是图像处理领域的热点研究课题之一.
在过去的几十年里,随着对图像噪声的深入研究,许多学者不断地提出新的图像去噪算法.三维块匹配(Block-matching and3Dfiltering,BM3D)算法[1]能够充分挖掘自然图像中存在的自相似特性,通过对相似块进行域变换进而达到图像的去噪效果.非局部算法[2]从图像整体的角度出发,同时利用了
收稿日期2018-05-02录用日期2019-01-09
Manuscript received May2,2018;accepted January9,2019
国家自然科学基金(61563037),江西省杰出青年人才资助计划(20171 BCB23057)资助
Supported by National Natural Science Foundation of China (61563037)and Outstanding Youth Funding Scheme of Jiangxi Province(20171BCB23057)
本文责任编委杨健
Recommended by Associate Editor YANG Jian
1.南昌航空大学南昌330063
1.Nanchang Hangkong University,Nanchang330063局部平滑与全局自相似等特性,取得了很好的去噪效果.
随着深度学习逐渐成为机器学习领域的研究热点,深度卷积神经网络[3−5]在图像特征提取与识别[6−8]等领域的成功应用为解决图像去噪问题提供了新的思路,尤其是高噪声环境下的图像去噪问题.与传统的图像去噪方法相比,深度卷积神经网络具有更强大的学习能力,通过使用大量含噪图像样本数据进行训练,能够有效地提高网络模型对不同标准噪声的适应能力,并使其具有更强的泛化能力.
在文献[9]中,Jain等提出一种全新的卷积神经网络结构,并将其应用于图像去噪,实验结果表明该网络模型能够取得与马尔科夫随机场(Markov randomfield,MRF)模型相当甚至更好的去噪效果.Burger等[10]提出的算法将多层感知机(Multi-layer perceptron,MLP)成功地应用于图像去噪.文献[11]提出一个可训练的非线性反应扩散模型TNRD(Trainable nonlinear reaction diffusion),该模型通过展开固定数量的梯度下降前馈深度网络,
12期盖杉等:基于深度学习的高噪声图像去噪算法2673
提高了图像的去噪性能.文献[12]中,Xie等将堆叠稀疏去噪自编码器方法应用于解决高斯噪声的移除并且实现了与K-SVD(Singular value decompo-sition)[13]相当的去噪效果.文献[14]中,Zhang等提出一种基于深度学习的去噪算法DnCNN(Feed-forward denoising convolutional neural networks, DnCNN).该算法采
用训练单一的去噪模型实现图像去噪的任务,同时对未知噪声水平的图像也有比较好的去噪效果.实验结果表明,该算法的去噪性能和效率均优于BM3D.
上述这些经典的图像去噪算法虽然在训练目标设计、训练特征选择以及训练集规模上各不相同,并且在低噪声环境下都能取得很好的去噪效果.但是,这些算法在高噪声环境下的去噪效果却不太理想.为了进一步改善高噪声环境下的图像去噪质量,本文提出一种对称式扩充卷积残差网络图像去噪算法.该算法首先通过对称式结构的卷积网络对输入噪声图像进行特征提取与学习,然后对提取的图像特征进行重构,最后通过整合残差学习和批量标准化实现图像与噪声的有效分离,并输出与输入图像尺寸相同的残差图像.为了解决卷积操作导致的网络内部协变量转移问题,本文使用批量标准化进行校正,有效地提高了网络训练的效率.另外,本文算法对非卷积后的图像进行零填充操作,保证在图像大小不变的情况下,降低了图像的边界伪影.实验结果表明,本文提出的算法在去噪性能和效率上都表现得非常好.
1深度卷积神经网络相关技术原理
1.1残差学习
卷积神经网络的残差学习最初的灵感来自于在不断增加网络的深度时,会出现一个训练精度退化的问题,即神经网络的训练精度先上升然后达到饱和,再持续增加网络深度时则会导致训练精度下降.因此,残差学习的提出起初是用来解决神经网络性能的退化问题.在这里,它是通过假设残差映射是很容易被学
习并且有一个浅层的网络已达到了饱和的准确率,后面再加上几个y=x的全等映射层,起码误差不会增加,即更深的网络不应该带来训练集误差的上升问题,这里提到的使用全等映射直接将前一层输出传递到后一层的思想就是残差网络通过一些堆叠层明确地学习残差映射思想的来源.采用残差学习策略使得深度卷积神经网络很容易被训练并且能更好地提升图像分类和目标检测的精确度.本文与之不同之处在于采用两个复合残差单元来预测残差图像.1.2批量标准化
目前小批量随机梯度下降算法(Stochastic gra-dient descent,SGD)已广泛用于神经网络模型的训练.该算法虽然简单有效,但是在网络训练过程中容易出现内部协变量转移,进而改变网络内部非线性输入分配,导致训练效率降低.因此,批量标准化(Batch normalization,BN)[15]的提出可以用来解决网络内部协变量转移,克服深度神经网络难以训练的缺陷,有效预防梯度弥散.本文中,我们在神经网络每一层非线性化之前引入批量标准化操作,然后结合归一化、缩放与移位变化等操作来解决网络内部协变量转变的问题.每一个激活函数在批量标准化过程中只需要添加两个参数,它们通过反向传播进行更新.这种机制能够加快训练过程中的收敛速度,提高模型的精确度,降低模型初始化具有的敏感性.
1.3高噪声环境下Leaky ReLU函数的作用
Leaky ReLU函数[16−17]的提出是基于ReLU 函数的改进,它不仅具有ReLU函数的优点,而且能够修正数据分布,在网络的训练过程中使得阈值为负的神经元得到了训练和更新,这样阈值为负的神经元信息
就得到了一定的保留,同时也提升了网络的拟合能力.鉴于高噪声环境下,图像内部可利用的有效信息相对较少,因此在网络训练过程中,我们需要更加充分地挖掘和利用图像的有效信息,提取和学习图像特征.Leaky ReLU函数在网络训练过程中能够更好地保留图像的有效信息,获得最佳的去噪效果.另外,本文采用Msra高斯分布对神经网络的权重值进行初始化,并且该权重初始化服从(0,2/n)的高斯分布.实验证明这种初始化方法能够更好地适应Leaky ReLU函数,加快梯度在网络结构中更新,从而使得本文算法在高噪声环境下也能够取得较好的去噪效果.
2基于深度学习的高噪声图像去噪算法
本文研究的高噪声图像去噪算法是针对加性白高斯噪声,其模型定义为
Y=X+N(1)其中,X是原始无噪图像,N是分布为N(0,σ2)的
噪声图像,σ为噪声标准差,Y是含噪图像.本文提出的基于对称式扩充卷积残差网络模型结构示意图如图1所示.
2.1网络深度
根据VGGNet[18]中的原则,首先移除所有的池化层,然后改进卷积核的大小设置.目前深度卷积神经网络中最常用的卷积核大小为3×3,相应深度为
2674自动化学报46
卷
图1
本文模型结构示意图
Fig.1
The structure of the proposed model
f 的卷积神经网络的感受野大小为(2f +1)×(2f +1).众所周知,图像的上下文信息有助于对图像中损坏像素进行恢复.我们在卷积神经网络中,通过前向卷积操作扩大网络的感受野,进而得到上下文信息.尤其在高噪声环境下,为了恢复图像中损坏的像素,需要更大的感受野来获得上下文信息.这增加了网络的计算负担,需要网络付出计算复杂度和计算效率的代价.
为了解决上述问题,本文使用一种扩充卷积在神经网络感受野的尺寸大小与网络深度之间进行权衡.扩充卷积不但具有扩充感受野的能力,同时也保留了传统3×3卷积的优点而得到广泛使用.在本文构建的神经网络中,从第1层至倒数第2层均采用扩充卷积,其扩充因子分别设置为1,2,3,4,5,4,3,2,1,最后一层使用3×3卷积,网络总深度设置为10层.其中,扩充卷积中的扩充因子是由尺寸大小为(2r +1)×(2r +1)的稀疏过滤器构成.
因此,扩充卷积的每一层等效的感受野大小为3,5,7,9,11,9,7,5,3.在相同的网络深度前提下,扩充卷积网络的感受野大小为51×51,可接受域大小为21×21.相比较而言,传统的3×3卷积要想得到相同大小的可
接受域,则需要将网络深度扩展至25层.为了验证本文设计的网络模型在高噪声环境下去噪的有效性,我们通过实验对比了本文算法与上述两种算法的去噪效果和效率.其训练收敛情况如图2所示.
从实验结果可以看出,感受野大小为51×51的25层网络需要训练迭代60轮才能达到收敛状态,而感受野大小为21×21的10层网络和本文设计的网络模型分别只需要训练迭代40轮和45轮就达到了收敛状态,在效率上节约了训练的收敛时间.另外,在对比实验中,我们把噪声标准差固定在σ=50的条件下进行实验,使用相同的训练集,训练三个不同的模型,并且在BSD68数据集上进行不同模型的去噪性能评估.实验结果表明,本文提出的网络模型在测试集上最终的平均峰值信噪比为26.42dB,比感受野大小为21×21的10层网络模型的平均峰值信噪比25.87dB 多0.55dB.同时,本文提出的网络模型平均峰值信噪比也非常接近感受野大小为51×51的25层网络的平均峰值信噪比26.45dB.
2.2网络模型结构
本文模型的输入是含有高斯噪声的图像,表示为Y =X +N .本文提出的去噪模型通过学习映射函数f (Y )=X 来预测潜在的无噪图像,相应的损失函数定义为
L =1n n i =1 1
w ×h w j =1h k =1
f i (j,k )−X i (j,k ) 2
(2)
其中,f 表示去噪后的图像,X 表示原始无噪图像,
12期盖杉等:基于深度学习的高噪声图像去噪算法
2675
图2不同网络结构模型训练收敛图
Fig.2The training convergence graph of different network
n为每个训练批次的样本数量,w,h表示每个样本
的宽度和高度.
接下来,我们采用残差学习来训练残差映射
R(Y)≈N,然后通过X=Y−R(Y)计算期望残
差图像与预测残差图像之间的均方误差.定义为
(w,b,X i,Y i)=
1
2N
N
i=1
R w,b(Y i)−(Y i−x i) 2
F
(3)
其中,w,b表示神经网络中可学习的参数,{Y i, X i}N
i=1
表示N个噪声与干净图像样本, (w,b;X i, Y i)表示网络预测的N个样本噪声图像R w,b(Y i)与期望噪声图像(Y−X)之间的均方误差即代价函数.
为了计算函数 (w,b;X,Y)的最小值,本文提出的模型采用随机梯度下降算法迭代优化和更新参数矩阵w和参数向量b,定义为
w(l+1)
ij =w(l)
ij
−α
reaction scheme∂
∂w(l)
ij
(w,b)(4)
b(l+1) i =b(l)
i
−α
∂
∂b(l)
i
(w,b)(5)
其中,α表示学习率,l表示参数所在的层序数, (w,b;X,Y)表示目标损失函数.采用神经网络的前向传播和反向传导算法,利用上述迭代规则,我们能够训练得到预期的网络模型.
本文提出的网络结构模型共设置为10层,具体分析如下:
1)1-DConv+Leaky ReLU:网络模型的第一层采用扩充率大小为1,核尺寸大小为1D×c的32个卷积核生成32个子特征,并使用Leaky ReLU (max(0.01x,x))对子特征实现非线性变换形成1个非线性特征映射.其中,步长设为1×1,这里c表示图像的通道数.
2)2/3/4/5-DConv+BN+Leaky ReLU:网络模型的第2∼5层,分别使用大小为2D×32的64个卷积核,3D×64的128个卷积核,4D×128的256个卷积核和5D×256的c个卷积核.其中,步长均设置为1×1,在扩充卷积层和Leaky ReLU 函数之间进行批量标准化操作[15].
3)4/3/2/1-DConv+BN+ReLU:网络模型的4∼1层分别设置大小为4D×c的256个卷积核,3D×256的128个卷积核,2D×128的64个卷积核和1D×64的32个卷积核.其中,步长均设置为1×1.
4)Conv层:网络的最后一个卷积层通过3×3×32的c个卷积核,及1×1步长,实现特征图像重构并输出.
考虑到图像在高噪声环境下内部可利用的有效信息较少的特点以及整个网络结构的计算复杂度,本文融合扩充卷积和双函数对称残差网络对数据进行建模,并引入残差学习和批量归一化加速网络训练速度并提升网络的去噪性能,构造了10层对称式扩充卷积残差网络实现高噪声环境下的图像去噪任务.本文提出的算法在高噪声环境下以及盲高斯噪声环境下都取得了较好的去噪效果,同时也提升了去噪效率.本文的算法的主要优点和贡献总结如下:
1)通过实验发现扩充卷积和Leaky ReLU函数更有利于卷积神经网络实现高噪声环境下的图像去噪任务.扩充卷积操作和Leaky ReLU函数的运用能够在不增加网络计算负担的同时增大网络的感受野,使网络可以获得并充分利用图像中更多的有效的上下文信息来实现去噪图像中损坏像素的恢复,完成图像去噪任务.
2)通过构造对称式扩充残差卷积神经网络,设计对称式的渐变特征提取、双激活函数和双残差块,并结合批量归一化算法,实现了一种端到端的可训练的去噪卷积神经网络模型用于高噪声环境下的图像去噪任务.通过与现有的经典去噪方法相比,本文
2676自动化学报46卷
算法通过迭代优化噪声误差值达到优化网络模型的
目的.
3)本文提出的网络模型能够通过在特定高斯噪
声水平下和随机高斯噪声水平下训练单一的网络模
型实现高噪声图像去噪任务,而且去噪效果要优于
那些在特定高斯噪声水平下的经典去噪方法.
降低边界伪影,在许多低层视觉应用中,通常要
求网络的输出图像尺寸和输入图像尺寸保持一致.
由于卷积的特点,如果在卷积操作过程中,不对卷积
前的图像做任何预处理,则将会导致最后的图像边
界出现伪影.因此,本文提出的算法在每次非1×1
卷积操作之后直接对图像块进行零填充,并且我们
希望设计的卷积神经网络能够捕获模型图像的边界,
确保中间隐含层的每一个特征映射与输入图像有相
同的尺寸.我们发现简单的零填充策略没有导致任
何边界伪影,这种好的性能或许一方面归功于本文
模型的强大性能,另一方面则归功于在对图像进行
裁剪时所做的贡献.当把图像裁剪成小的图像块时,
它能够使卷积神经网络获得更多的边界信息,即对
图像的边界信息进行了增强.本文也测试了使用更
大尺寸的图像块时的网络性能,实验结果表明,更大
尺寸的图像块只能给网络的去噪性能带来很小的改
善,但是训练图像块的尺寸小于网络可接受域大小
时,网络性能则会下降.
2.3融合残差学习与批量标准化的图像去噪
对称式扩充卷积残差网络结构展示了该网络训
练残差映射R(Y)来预测N的过程.通过文献[19]
可知,当原始映射近似为一个同等映射时,残差映
射将更容易被优化.尤其是,含噪图像Y比起残差
图像R(Y)更接近潜在的清晰图像,即原始映射比
R(Y)更加接近于同等映射,因此,残差学习法更适
合图像去噪.
虽然采用随机梯度下降算法能够加速训练速度
和提高网络性能,但是网络的结构设计也是一个重
要的因素.批量标准化和残差学习是最常用的两个
结构设计技术,它们广泛应用于卷积神经网络的结
构设计中.尤其是批量标准化,定义如下:
Z(i)=γZ(i)
norm
+β(6)
其中,γ,β表示可调参数,Z是调整参数γ,β后的
Z norm的分布,Z norm定义如下:
Z(i)
norm =
Z(i)−µ
√
σ2+ξ
(7)
其中,ξ为一个取值很小的参数,用于保证分母不为0,Z norm表示正则化,Z表示未激活前的神经元,µ,σ2分别表示样本均值和方差,µ,σ2有如下定义:
µ=
1
m
i
Z i(8)
σ2=
1
m
i
(Z i−µ)2(9)
它可以用于对在训练期间的每个卷积层所提取的图像特征数据实现归一化处理,使各层网络学习相同的特征数据分布,提高网络的训练效率.鉴于在高斯去噪的过程中,残差学习和批量标准化都与高斯分布有关,因此整合批量标准化和残差学习非常有利于高斯图像去噪.更准确地说,它不仅加速和稳定网络的训练,而且还能获得更好的去噪性能.
综上所述,本文提出的基于深度学习的高噪声图像去噪算法具体步骤如下:
算法1.基于深度学习的高噪声图像去噪算法
输入层.网络模型的输入层是加噪图像样本Y.
输出层.网络模型的输出层是预测噪声图像R(Y).
步骤1.加噪图像首先通过构建模型的前半部分递增式扩充卷积操作,进行图片特征的学习,同时在每层卷积之后,利用式(6)实现批量标准化,避免了卷积之后出现网络内部协变量转移问题,最后通过式Leaky Relu函数进行图像特征非线性映射,实现图像特征提取.
步骤2.步骤1得到的特征图像通过模型的后半部分递减式扩充卷积操作、批量标准化和Relu函数的非线性映射进行图像特征重构,最后输出残差图像.
步骤3.根据步骤2中得到的残差图像对式(3)的损失函数值进行计算.
步骤4.利用式(4)和式(5)对式(3)中相应参数w,b进行反向迭代更新和优化,最终得到理想的去噪模型.
步骤5.用步骤4中的理想模型对测试集中的加噪图片进行去噪测试,并对去噪结果进行对比分析和评估.
3实验结果与分析
3.1实验设置
1)训练和测试数据.对于已知不同标准差的噪声水平的高斯图像去噪,本文使用文献[11]中尺寸大小为180×180像素的400幅无噪图像作为原始训练集.为了训练所提出模型在特定的高斯噪声环境下的高斯去噪,我们设置了5种噪声水平,即噪声标准差σ分别为15,25,40,50和60.根据网络的深度以及感受野的大小设置训练数据集,本文对原始的400幅无噪图像进行数据增强,最终得到128×1600幅大小为53×53像素的图像样本训练本
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论