第42卷第3期通信学报V ol.42No.3 2021年3月Journal on Communications March 2021
基于多通道GAN的图像去噪算法
王洪雁1,2,3,杨晓2,姜艳超2,汪祖民2
(1. 浙江理工大学信息学院,浙江杭州 310018;2. 大连大学信息工程学院,辽宁大连 116622;
3. 五邑大学智能制造学部,广东江门 529020)
摘 要:针对图像采集和传输过程中所产生噪声导致后续图像处理能力下降的问题,提出基于生成对抗网络(GAN)的多通道图像去噪算法。所提算法将含噪彩图像分离为RGB三通道,各通道基于具有相同架构的端到端可训练的GAN实现去噪。GAN生成网络基于U-net衍生网络以及残差块构建,从而可参考低级特征信息以有效提取深度特征进而避免丢失细节信息;判别网络则基于全卷积网络构造,因而可获得像素级分类从而提升判别精确性。此外,为改善去噪能力且尽可能保留图像细节信息,所构建去噪网络基于对抗损失、视觉感知损失和均方误差损失这3类损失度量构建复合损失函数。最后,利用算术平均方法融合三通道输出信息以获得最终去噪图像。实验结果表明,与主流算法相比,所提算法可有效去除图像噪声,且可较好地恢复原始图像细节。
关键词:图像去噪;生成对抗网络;通道分离;复合感知损失
中图分类号:TP391
文献标识码:A
DOI: 10.11959/j.issn.1000−436x.2021049
Image denoising algorithm based on multi-channel GAN
WANG Hongyan1,2,3, YANG Xiao2, JIANG Yanchao2, WANG Zumin2
1. School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China
2. College of Information Engineering, Dalian University, Dalian 116622, China
3. Faculty of Intelligent Manufacturing, Wuyi University, Jiangmen 529020, China
Abstract: Aiming at the issue that the noise generated during image acquisition and transmission would degrade the abil-ity of subsequent image processing, a generative adversarial network (GAN) based multi-channel image denoising algo-rithm was developed. The noisy color image could be sep
arated into red-green-blue (RGB) three channels via the pro-posed approach, and then the denoising could be implemented in each channel on the basis of an end-to-end trainable GAN with the same architecture. The generator module of GAN was constructed based on the U-net derivative network and residual blocks such that the high-level feature information could be extracted effectively via referring to the low-level feature information to avoid the loss of the detail information. In the meantime, the discriminator module could be demonstrated on the basis of fully convolutional neural network such that the pixel-level classification could be achieved to improve the discrimination accuracy. Besides, in order to improve the denoising ability and retain the image detail as much as possible, the composite loss function could be depicted by the illustrated denoising network based on the following three loss measures, adversarial loss, visual perception loss, and mean square error (MSE). Finally, the re-sultant three-channel output information could be fused by exploiting the arithmetic mean method to obtain the final de-noised image. Compared with the state-of-the-art algorithms, experimental results show that the proposed algorithm can remove the image noise effectively and restore the original image details considerably.
Keywords: image denoising, generative adversarial network, channel separation, joint perception loss
收稿日期:2020−11−13;修回日期:2021−01−28
基金项目:国家自然科学基金资助项目(No.61301258, No.61871164);浙江省自然科学基金重点资助项目(No.LZ21F010002);中国博士后科学基金资助项目(No.2016M590218)
Foundation Items: The National Natural Science Foundation of China (No.61301258, No.61871164), Key Projects of Natural Science Foundation of Zhejiang Province (No.LZ21F010002), China Postdoctoral Science Foundation (No.2016M590218)
·230·通信学报第42卷
1引言
近年来,图像处理技术的快速进步,使其在医学影像、卫星遥感以及智能监控等应用领域获得持续关注。高质量图像是保证后续有效处理的前提,然而采集及传输过程中图像不可避免地被噪声所污染,从而影响后续图像分类、识别等任务完成的可靠性。因此,如何在不破坏图像原有特征的条件下最大限度地去除噪声以尽可能恢复原始图像是目前图像处理领域的热点问题之一[1]。
针对此问题,众多有效去噪算法相继被提出,常见去噪算法通常可分为以下2类。1) 基于传统滤波器去噪。其基于图像及噪声的统计及结构约束设计滤波器实现去噪。其中,文献[2]首先提出用于去除低
密度噪声的中值滤波器(MF, median filter),该滤波器对高密度噪声适用性较差。基于此,文献[3]提出可高效滤除高密度噪声的自适应中值滤波器(AMF, adaptive median filter),由于该滤波器使用固定窗口尺寸,对于具有不同噪声密度的图像无法自适应调整窗口阈值,因而导致图像模糊。需要注意的是,上述滤波器仅利用噪声统计信息而较少考虑图像自身相关结构及统计约束,且卷积核设置不同将导致卷积过程丢失部分有用信息[4]。针对此问题,文献[5]提出k均值奇异值分解(k-SVD, k-means singular value decomposition)方法,利用离散余弦变换构造字典,并基于奇异矩阵更新字典参数。然而,该方法仅基于当前图像块恢复图像,没有考虑其他相关区域信息,从而导致纹理细节丢失。针对上述问题,基于图像非局域及稀疏性,文献[6]提出三维块匹配滤波(BM3D, block-matching and 3D filtering)方法,基于硬阈值及维纳滤波联合去噪,可较好地保留图像细节,然而其需要同时考虑多图像块匹配,因而计算复杂度较高。2) 基于特征学习去噪。此类方法通过学习含噪与去噪图像之间映射关系实现去噪[4]。其中,基于卷积神经网络(CNN, convolutional neural network)权值共享、稳健性强、特征有效表达等优势,文献[7]将CNN用于图像去噪,然而其去噪效果严重依赖特征提取深度,即基于浅层网络则泛化能力较差,基于深层网络尽管去噪性能较好但计算复杂度较高。针对此问题,文献[8]提出的前馈去噪卷积神经网络(DnCNN, de-noising convolutional neural network)将残差思想应用至图像去噪,在提取深度特征时将低级特征信息
作为参考,并引入批量归一化(BN, batch norma-
lization)调节网络以提升网络收敛速度,从而高效
获取残差图像,显著改善去噪效果。2015年,
Ronneberger等[9]提出利用U-net实现有效语义分
割,该网络由如下两部分构成:扩张路径用于精准
定位;收缩路径用于获取上下文信息。基于此架构,
U-net可实现高效像素级分类,由此,文献[10]基于
此网络实现图像去噪。此外,文献[11]通过并行训
练多通道自编码器以估计各通道最优权重,从而实
现自适应图像去噪。上述算法皆基于开环网络,为
使输出结果可反馈调节网络,从而改善去噪性能,
Divakar等[12]于2017年基于闭环思想提出利用对抗
原理训练去噪网络,去噪模型包括生成及判别网
络,通过将判别结果反馈至生成网络以改善去噪效
果。文献[13]提出的去噪模型中生成及判别网络均
采用浅层卷积网络,其损失函数建模为像素及对抗
损失,相比上述学习模型,该方法去噪效果较好,
然而直观可感知细节即主观信息仍有明显丢失。针
对此问题,文献[14]联合感知及对抗损失,基于预
训练几何组特征差异衡量去噪效果,该方法表明感
知损失更利于提升主观感知。为进一步提升去噪性
能,文献[15]采用如下复杂生成网络,包含收缩路
径及具有短接连接的扩展路径,基于二维小波分解
与重构实现上下采样,小波分解后接高通滤波器直
接跳转至扩展路径,并连接收缩路径,从而尽可能
地保留图像细节,然而上述结构在改善去噪效果的
同时也使计算复杂度显著增加。
针对上述问题,本文提出基于生成对抗网络
(GAN, generative adversarial network)的多通道图
像去噪算法。所提算法首先分离彩图像RGB三
通道;其次利用U-net衍生网络及残差块构建生成
模块以有效提取图像特征;再次基于全卷积神经网
络构造对抗模块;最后基于均方误差(MSE, mean
square error)损失、感知损失及对抗损失构建复合
感知损失函数,以改善去噪性能同时有效保留图像
的细节信息。
2 去噪相关工作
图像去噪的目的是由含噪图像恢复相应原始图
像,具体地,令N N
f R×
∈和N N
u R×
∈分别表示含噪图
像和对应的原始未污染图像,二者之间的关系为
:
O f u
→ (1) 其中,O为含噪空间至原始空间的映射函数。
第3期王洪雁等:基于多通道GAN的图像去噪算法·231·
传统去噪方法中映射函数通常基于空域或变换域构造。空域去噪直接作用于像素,常用去噪方法包括均值及中值滤波,其利用某像素邻域均值/中值替换此像素值。然而,空域去噪方法噪声普适性较差且图像细节易丢失。针对此问题,变换域去噪方法被提出,其基于傅里叶变换或小波变换等方法映射空域图像至变换域以利于有效分离噪声,从而提升去噪效果[16]。
相较于基于图像像素及其变换域的传统去噪方法,基于学习的去噪方法则利用训练所得模型获得图像及噪声统计信息,从而构造含噪图像至去噪图像的映射关系,进而实现去噪[17]。典型的基于学习的去噪模型包括基于BN及残差学习以加速训练过程,从而提升去噪性能的DnCNN,以及融合编解码结构与跨层连接,以加速网络收敛的卷积编码器[18]。需要注意的是,上述基于学习的去噪模型皆为开环结构,因而无法将输出结果反馈至模型,以提升其去噪性能。针对此问题,基于闭环结构的对抗学习思想被引入去噪领域,以充分利用输出结果改善去噪模型有效性,进而提升去噪效果。
作为对抗学习模型的典型代表,GAN广泛应用于去噪领域,其由生成器G和判别器D构成,结构如图1
所示。其中,生成器G接收含噪图像,并对其预去噪以生成图像G()f;判别器D 以原始图像u及G()f为输入,其输出赋予原始图像较高值、生成图像G()f较低值。基于所构造损失函数迭代训练G和D,迫使G()f渐次逼近真实图像,最终使D无法准确区分原始及生成图像,从而完成去噪。常用目标函数为二者极大极小值博弈,即
[]
[]
GAN~
G D
~
min max(D,G)E log D()
E log(1D(G()))
u
f
u P
f P
L u
f
=+
−(2)其中,E()⋅为期望算子,log D()u为判别器D正确识别真实图像的概率,log(1D(G()))
f
−为D将生成图像识别为虚假图像的概率。基于此对抗损失,可反向调节生成器及判别器,以改善去噪性能。然而,此对抗损失易导致高频伪影,且无法保持主观特征信息。
degrade图1 生成对抗网络结构
3 所提图像去噪算法
所提算法将含噪图像分离为RGB三通道,各通道具有相同网络结构,以尽可能保持特征融合后分通道细节信息。以单个通道为例,所提算法框架如图2所示。生成器G以含噪图像为输入,输出为去噪图像;判别器D以原始及去噪图像为输入,输出为[0,1],表征去噪与原始图像的相似性。基于所构造的复合感知损失交替迭代训练判别及生成网络,最后加权融合各通道输出,以获得最终去噪图像。
3.1生成网络
生成网络是基于GAN去噪网络的核心部分,图像去噪性能较大程度上依赖于生成网络。如前所述,U-net为具有编码/解码器结构的全卷积神经网络。与普通编解码结构相比,U-net的优势在于具有跳跃连接,能将编/解码器特征图按通道拼合,
因图2 所提算法框架(以RGB中单个通道为例)
·232· 通 信 学 报 第42卷
而可保留具有不同分辨率的像素级细节信息[19]。此外,ResNet 由于残差块间跳跃连接可避免梯度消失,从而可显著提高网络收敛速度。由此,本节利用U-net 衍生网络以及ResNet 构建生成网络,在U-net 基础上引入部分具有跳跃连接的残差块,通过编码器、解码器及残差块的处理,尽可能地保留图像信息,同时不显著增加计算复杂度,最后通过损失函数迭代调整网络。生成网络结构如图3所示,其中,k 、n 和s 分别表示卷积核大小、滤波器数和卷积步长。
生成网络中,编/解码器采用对称卷积操作以保证图像输入/输出维度相同;第一层和最后一层卷积核尺寸为77×,其他层卷积核大小为33×,步长设置为1以捕捉更多细节信息;各卷积层后接BN 以提升学习率,从而加快网络训练速度;各BN 后接
激活函数ReLU [4];
最后一层以tanh()⋅为激活函数以缓解梯度消失效应,从而保证训练稳定性;此外,
生成模块中还加入9个残差块,在保证去噪效果的同时有效保留图像低阶特征。 3.2 判别网络
判别网络基于全卷积神经网络构建,其将传统CNN 中全连接层替换为卷积层,以消除输入图片尺
寸限制。判别网络以生成网络产生的伪图像G()f 和原始图像为输入,判别网络结构如图4所示。判
别模块包含5个卷积层,每层卷积核大小为44×,步长为2且滤波器个数依次为64、128、256及512;除最后一层外,其他层皆后接BN 及非线性激活函数LeakyReLU ,以避免ReLU 神经元“死亡”[20]。输出采用Sigmod 函数以便于概率分析并将判别结果归一化[21],此输出表征输入图像与原始未污染图像的相似程度,数值越高,表明输入图像越接近原始干净图像;反之,则接近生成图像。 3.3 损失函数
为训练所构建的生成及判别网络以改善去噪性能,同时尽可能保持原始图像细节特征,本节基于可度量生成对抗网络性能的对抗损失、表征主观信息的视觉感知损失和表述像素间一致性的MSE 损失[22]这3类损失度量,构造可体现去噪效果、内容完整性以及主观视觉效果的复合损失函数。 3.3.1 对抗损失
基于训练数据集,最小最大化如式(2)所示的对抗损失,以获得最优生成及判别网络,从而提升生
成网络的生成图像与原始图像之间的相似性,进而
图3 生成网络结构
图4 判别网络结构
第3期 王洪雁等:基于多通道GAN 的图像去噪算法 ·233·
改善图像去噪性能。 3.3.2 MSE 损失
对抗损失虽然可有效调节生成及判别模块,但是易导致高频伪影。由于MSE 所具有的均值回归特性可保证像素间良好的一致性,因此可有效缓解细节平滑效应。MSE 损失可表示为
2
MSE G()L f u =− (3) 3.3.3 感知损失
图像处理中细节信息完整性尤其重要,然而基于上述MSE 损失训练网络易产生图像模糊,从而导致主观信息缺失[23]。由于感知损失可度量生成及原始图像在感知特征空间的距离,而不仅局限于像素空间[24]
。因此,可基于如下感知损失有效保持主观特征信息 2
VGG (,)(G())()f u L E f u φφ=− (4) 其中,φ为预训练VGG-19网络的最后卷积层输出。通过将原始图像与去噪图像分别输入预训练
VGG-19网络,以获取各自图像特征,从而衡量
二者感知特征损失。
3.3.4 复合感知损失函数
综上所述,基于GAN 构建的去噪网络的复合
感知损失函数可表示为
total 1MSE 2VGG 3d L L L L λλλ=++ (5) 其中,1λ、2λ和3λ分别表示各损失权重,其可基于
实验设置。 3.4 融合模块
所构建去噪网络中的融合模块采用空域图像融合算法,即加权平均法。设三通道加权系数分别为A w 、B w 、C w ,且满足1A B C w w w ++=,则融合
图像像素F (,)i j 可表示为 (,)(,)(,)(,)A B C F i j w A i j w B i j w C i j =++ (6) 加权系数可通过诸如最大、最小、平均以及主成分分析(PCA, principal component analysis )等方法[24]设置。若令A w 、B w 和C w 分别为((,)max((,),(,),(,)))A i j A i j B i j C i j δ−、((,)B i j δ− max((,),(,),(,)))A i j B i j C i j 和((,)max((,),C i j A i j δ− (,),(,)))B i j C i j ,则表示三通道基于像素取大原则融合;类似地,若令((,)min((,),(,),A i j A i j B i j δ− (,)))C i j 、((,)min((,),(,),(,)))B i j A i j B i j C i j δ−和((,)min((,),(,),(,)))C i j A i j B i j C i j δ−,则意味着三通道基于像素取小准则融合,其中,
max()min()()δ⋅⋅⋅、和分别表示极大值算子、极小值算子和狄拉克函数。由于所构建的去噪网络无差别处理三通道信息,因此为了尽可能保持图像原有的细节信息,本文采用算术平均法融合三通道信息,即
1
3
A B C w w w ===。
4 实验结果分析
基于2020年阿里天池算法挑战赛所提供的图
像数据集,本节通过将所提算法与BM3D [6]、DnCNN [8]、RED-WGAN [11]、WGAN-VGG [14]、MSRResNet-GAN [25-26]及DUGAN [27]等算法进行对比,在人类主观感知及客观评价方面验证所提算法
的有效性。所用数据集分为8个类别,每个类别包含160张图片,所采用图像均具有丰富的纹理及边
缘特征,因而去噪难度较大。为充分验证所提算法的去噪效果,本节在训练图像中分别添加密度为
15%、25%、35%的椒盐噪声。 4.1 实验环境配置
网络设置如下。生成器由15层CNN 构成,如图3所示,其中包含9层残差网络,编/解码结构中卷积核
大小分别设置为77×、33×、33×、33×、33×、77×;判别器基于全卷积神经网络构建,如图4所示,卷积核大小设置为44×。训练过程中,
批处理大小为64,采用Adam 算法更新梯度,学习
率为0.001,动量值为0.9,权值衰减为0.000 01。
为增加训练样本数,可对训练数据随机添加类别、密度各异的噪声以增加模型泛化能力。
实验硬件环境为处理器Intel Core i7-7700,主频3.60 GHz ,内存12 GB ,NVIDIA TITAN XP ;软件环境为Window10 64 bit 、
Python3.6、TensorFlow 。 4.2 评价指标
去噪效果主要从视觉主观感受及修复逼近程度2个方面衡量。
视觉主观感受表征人类视觉对去噪图像所感知主观信息的保留程度;修复逼近程度表征去噪与标准图像之间的偏差,偏差越小,表明逼近程度越高,去噪效果越好。通常采用峰值信噪比(PSNR, peak signal to noise ratio )和结构相似性指数测量
(SSIM, structural similarity index measurement )
作为定量指标。其中,PSNR 评估去噪与真实图像间像素差异,用于衡量整体去噪性能;SSIM 权衡图像间结构差异,用于表征细节相似程度[28]。PSNR 、SSIM 数值越高,表明图像还原度越高。PSNR 可表示为
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论