DOI: 10.3785/j.issn.1008-973X.2021.03.016
融入注意力机制的弱监督水下图像增强算法
雍子叶1,郭继昌1,李重仪2
(1. 天津大学 电气自动化与信息工程学院,天津 300072;2. 香港城市大学 电脑科学学院,香港 999077)摘  要:基于监督学习的水下图像增强算法中所需成对训练样本获得困难,为此提出一种融入注意力机制的弱监督水下图像增强算法. 根据不同波长的光在水中传播时衰减程度不同的物理特性,计算红通道衰减图,并将依赖红通道衰减图引导的注意力模块融入生成网络,提高生成网络修正水下图像偏的性能;设计对抗损失函数和结构相似性损失函数相结合的多项联合损失函数,在修正水下图像偏的同时保留更多图像细节;在全局和局部两个尺度下优化提出的弱监督水下图像增强网络模型. 实验结果表明,所提算法在主观视觉质量和客观评价指标上都优于比较算法,可以有效地提高水下图像清晰度.
关键词: 水下图像;图像增强;弱监督学习;注意力机制;清晰度
中图分类号: TP 391          文献标志码: A          文章编号: 1008−973X (2021)03−0555−08
weakly supervised underwater image enhancement algorithm
incorporating attention mechanism
YONG Zi-ye 1,  GUO Ji-chang 1,  LI Chong-yi 2
(1. School of Electrical Automation and Information Engineering , Tianjin University , Tianjin 300072, China ;
2. Department of Computer Science , City University of Hong Kong , Hong Kong 999077, China )
Abstract: The  supervised  underwater  image  enhancement  algorithms  need  paired  training  image  samples  that  are
difficult  to  be  obtained  in  some  uncontrolled  scenarios  such  as  underwater  scenarios. A  weakly  supervised underwater image enhancement algorithm incorporating attention mechanism was proposed. Firstly, the red channel attenuation map was calculated according to the characteristics that the light with different wavelengths suffers from different  attenuation  when  it  propagates  in  water. After  that, the  attention  module  guided  by  the  calculated  red channel  attenuation  map  was  integrated  into  the  generator, which  effectively  improved  the  performance  of  the generator in terms of correcting the color deviation of underwater images. In ad
dition, a multiple joint loss function,including an adversarial loss and a structural similarity loss, was designed, which retained more image details while correcting color deviation of underwater images. Finally, the underwater image enhancement network was optimized under global and local scales. Experimental results show that the proposed algorithm is better than the competing algorithms  in  both  subjective  visual  quality  and  objective  evaluation  index, and  thus  can  effectively  improve  the visibility of underwater images.
Key words: underwater image; image enhancement; weakly supervised learning; attention mechanism; clarity
水下图像是海洋信息的重要载体,在水下考古、海洋生态研究、海洋工程等领域扮演着重要的角[1]. 与陆地拍摄的图像不同,复杂的水下成像环境使水下图像出现严重的质量退化问题[2]:
1)不同波长的光在水中传播时衰减程度不同,使得水下图像产生严重的颜偏差,以蓝绿偏为主;2)水体的散射导致水下图像对比度低、纹理模糊;3)水中的杂质和悬浮物导致图像引入噪
收稿日期:2019−12−30.            网址:www.zjujournals/eng/article/2021/1008-973X/202103016.shtml 基金项目:国家自然科学基金资助项目(61771334).
作者简介:雍子叶(1996—),女,硕士生,从事水下图像清晰化研究. /0000-0002-8186-3873. E-mail :181****************
通信联系人:郭继昌,男,教授. /0000-0003-3130-1685. E-mail :*************
第 55 卷第 3 期  2021 年 3 月
浙    江    大    学    学    报(工学版)
Journal of Zhejiang University (Engineering Science)
Vol.55  No.3Mar.  2021
声,并且放大后向散射的影响[3]. 退化的水下图像极大地影响了主观视觉质量,以及基于计算机视觉的水下监视、水下目标跟踪等应用的性能[4]. 因此,水下图像增强算法的研究具有重要的意义.
现有的水下图像增强算法大致可分为2类:传统的水下图像增强算法和基于深度学习的水下图像增强算法. 传统的水下图像增强算法大多基于特定的场景,利用假设和先验知识对图像进行增强处理,往往存在鲁棒性不高、实时性较差等问题. 例如Singh等[5]提出基于曝光的递归直方图均衡化图像增强方法,该方法可以获得较高的峰值信噪比和较低的均方误差,但未能有效解决不同水下场景中的偏问题. Z
hang等[6]提出扩展多尺度Retinex的水下图像增强算法,将具有彩恢复的多尺度视网膜增强算法扩展到CIELab颜空间,可以有效抑制图像增强过程中的光晕现象,但该方法引入过多参数导致鲁棒性较差.
基于深度学习的水下图像增强算法主要利用卷积神经网络自动提取水下图像特征,得到原始水下图像与增强图像之间的映射关系,实现水下图像清晰化. 基于监督学习的方法需要大量成对的样本进行监督训练,但实际中收集足够多成对的水下图像极其困难. Li等[7]将水下图像生成模型嵌入生成对抗网络(generative adversarial net-work,GAN)结构中,利用清晰的陆地图像生成浑浊的水下图像;然后利用该成对数据集训练水下图像增强网络模型. Chen等[8]通过水下图像成像模型,将浑浊的水下图像转化为清晰的水下图像,然后用该成对的数据集训练条件生成对抗网络实现水下图像增强. 但由于合成图像与真实水下图像的分布存在差异,这类方法在真实图像增强效果方面并不理想. Zhu等[9]提出的循环对抗神经网络(cycle-consistent adversarial networks,CycleGAN)设计了一种双路GAN结构并引入了循环一致性损失,放宽了对成对训练集的需求,但该算法不能完整地恢复原始图像中的内容信息. Li等[10]在CycleGAN的基础上提出了一种弱监督水下图像颜转换方法,该网络模型设计的多项损失函数在去除水下图像偏的同时,保留了原始图像中的内容信息,但该方法对图像对比度的增强效果不佳.
针对现有的基于深度学习的水下图像增强算法存在的问题,本文提出一种融入注意力机制的弱监督水
下图像增强算法. 由于不同波长的光在水中传播时存在衰减差异,因此将红通道衰减图作为注意力图与水下图像同时输入生成网络,进行融入注意力机制的对抗网络训练. 同时采用全局和局部2种判别器约束生成网络模型,提高生成图像清晰度. 实验结果表明,本文算法能有效地提高水下图像对比度,增强细节,校正偏.
1  理论基础
1.1    光在水中的衰减
在水下环境中,不同波长的光具有不同的衰减程度. 一般情况下,红光的波长最长,在水中的穿透力最弱,因此最先消失. 蓝光因为具有最短的波长,在水中的穿透力最强,所以在水中传播距离最远. 这种与波长相关的光传播是导致水下图像颜偏差的主要原因[11].
根据光在水中传播时的选择性衰减特点,若假设背景光已知,则可以利用红通道与蓝绿通道之间的差异估计介质透射率图[12]. 各通道之间的衰减差异可以通过比较红通道的最大值与蓝绿通道的最大值得到:
x D(x)
I R(x)
I BG(x)
˜t r
式中:为像素点,为红通道的最大值与蓝绿通道的最大值之差,为红通道的像素值,为蓝绿通道的像素值. 估计的红通道介质透射率计算公式为
A r(
x)
由式(2)可得红通道衰减:
1.2    生成对抗网络
生成对抗网络是蒙特利尔大学Goodfellow Ian 于2014年提出的一种网络模型[13]. 该网络模型中包含一个生成器模型G和一个判别器模型D,其基本网络如图1所示.
图1中,生成器G根据随机变量z生成一幅图像,然后与真实图像同时输入判别器D进行二分类神经网络训练. G的目标是用生成图像去欺骗D,D若能辨别该生成图像是真实图像就直接输出该生成图像,否则将判别该生成图像是虚假图像的结果反馈给G,G再重新生成图像欺骗D,直到D判别生成图像是真实图像为止. Goodfellow 等[13]提出优化的目标函数为
556浙          江          大          学          学          报(工学版)第 55 卷
p d (x )p z (z )E G (z )式中:为真实图像的概率分布,为输入随机变量的概率分布,为期望值,为通过随
机变量生成的图像. 生成对抗网络模型通过最大化D ,再最小化G ,最终实现目标函数的最优化.
2  算 法
为了解决监督学习的水下图像增强算法所需成对训练集获得困难的问题,提出一种融入注意力机制的弱监督水下图像增强算法,算法流程如图2所示. 首先原始水下图像通过逐像素值运算得到注意力图像,这里采用红通道的衰减图作为注意力图,再将原始图像和注意力图像同时输入融入注意力机制的生成器中,在注意力图像的引导下生成器输出生成图像. 然后将生成图像与真实图像输入全局判别器,生成图像块与真实图像块输入局部判别器,2个判别器共同判别该生成图像是真是假. 若辨别该生成图像是真实图像就直接输出该生成图像(增强后的水下图像),否则将判别结果反馈给生成器,生成器继续生成图像欺骗2个判别器,直到2个判别器均无法辨别生成图像与真实图像真假为止.
2.1    算法核心网络结构
算法核心网络主要包括融入注意力机制的生成器和全局-局部判别器,其网络结构如图3所示.如图3(a )所示为融入注意力机制的生成器,由介质透射率图变换得到红通道衰减图作为注意力图,引导网络学习水下图像红通道的衰减权重,将权重与原图矩阵点乘,再与原图相加,得到生成图像. 如图(b )所示为全局-局部判别器,全局判别器判别生成图像与真实图像的真假,局部判别器判别随机裁取的生成图像与真实图像的局部小块的真假.
2.2    融入注意力机制的生成器
注意力机制一方面可以减轻计算高维数据的负担,降低数据的维度;另一方面可以帮助网络更专注于
学习与任务最相关的信息,从而提高网络的学习能力. 注意力机制模型的最终目的是帮助网络学到更多不同信息之间隐蔽、复杂的映射关系. 这种关系对于弱监督/无监督学习网络尤为有效. 水下图像与陆地图像最大不同是存在偏问题,根据不同颜的光在水中传播时的衰减程度不同,估计出介质透射率图. 蓝绿通道的透射率图是由红通道透射率图求出,所以红通道的透射率图就已经包含了蓝绿通道的局部直方图均衡化
透射率图的信息. 因此,这里采用处理后的红通道的透射率图
图 1    生成对抗网络模型Fig.1    Generative adversarial network
图 2    融入注意力机制的弱监督水下图像增强算法流程
Fig.2    Flowchart of weakly supervised underwater image enhancement algorithm incorporating attention mechanism
第 3 期
雍子叶, 等:融入注意力机制的弱监督水下图像增强算法[J]. 浙江大学学报:工学版,
2021, 55(3): 555–562.
557
(红通道的衰减图)作为注意力图来引导网络进行水下图像颜修正.
通过将注意力机制融入改进的U-Net [14],构成注意力图引导的生成器,如图3(a )所示. U-Net 通过从不同的深度层中提取多层次的特征,利用多尺度的内容信息合成高质量的图像,保留了图像丰富的纹理信息,在语义分割、图像复原和增强[15]等方面获得了较好的性能,因此采用U-Net 作为生成器的基础网络结构.
生成器的运算过程是:先通过5次卷积操作实现图像下采样,再通过4次反卷积操作实现图像上采样. 为了避免信息丢失,在下采样阶段,采用卷积替代最大池化,以保留更多的内容信息.为了减少栅格效应,在上采样阶段,将标准的反卷积层替换为一个双线性上采样层和一个卷积层,以保留更多的纹理信息. 此外,为了保证注意力图像的大小适应每个对应特征图像,将注意力图像与水下图像同时输进网络模型进行下采样.再将每层下采样的注意力图像与对应的特征图像点乘并与上采样中对应大小的特征图像相连,从而发挥注意力图像的引导作用,来提高生成网络模型增强水下图像的性能.2.3    全局-局部判别器
全局判别器判别整张图像的真假,只能实现图像全局增强. 当输入图像有局部区域需要不同于其他部分进行增强时,全局判别器无法对局部区域进行特定增强. 因此,为了自适应地对图像
局部区域进行增强,采用一种全局-局部判别器结构[16],即除了全局判别器外,增加一个局部判别器,如图3(b )所示. 局部判别器能够从增强图像和真实图像中随机选取局部小块,并分辨它们是来自真实的图像还是生成的图像. 全局-局部判别器结构保证了增强图像的局部区域在主观视觉上更加真实自然,这对于避免局部失真至关重要.
D ra (x r ,x f )D ra (x f ,x r )D ra (x r ,x f )D ra (x f ,x r )对于全局判别器,Alexia [17]提出相对判别器.该结构分为2部分:估计真实数据比生
成数据更真实的概率,估计生成数据比
真实数据更不真实的概率. 理想状态下,希望
无限趋近于1,无限趋近于0. 相
对判别器的标准函数为
C x r x f P r P f
E σ式中:为网络的判别器,、分别为真实图像分布和生成图像分布,为真实图像的概率分布,为生成图像的概率分布,为期望值,为Sigmoid
激活函数. 采用Mao 等[18]提出的损失函数,最终全局判别器D 和生成器G 的损失函数为
输入
32×256×256
32×256×256
32×128×128
32×64×64
32×32×32
32×32×32
32×16×16
32×16×16
32×8×8
32×4×4
64×128×128
128×64×64
256×32×32
512×16×16
512×32×32
256×64×64
128×128×
128
6
25
256
输出
输入
输入
输出
输出
真/假真/假
(a)
融入注意力机制的生成器
(b) 全局-局部判别器
水下图像特征图像陆地图像注意力图像×特征图像
卷积+批量标准化+激活函数反卷积+2×(卷积+激活函数+批量标准化)2×+(卷积+激活函数+批量标准化)卷积
Sigmoid 激活函数
注意力图像增强后图像学习权重图像
图 3    融入注意力机制的弱监督水下图像增强算法核心网络结构
Fig.3    Network architecture of weakly supervised underwater image enhancement algorithm incorporating attention mechanism
558
浙          江          大          学          学          报(工学版)第 55 卷
对于局部判别器,从每次生成图像和真实图像中分别随机裁剪出6个小块,大小均为32×32.局部判别器
D 和生成器G 的损失函数为
P rp P fp 式中:为真实图像块的概率分布,为生成图像块的概率分布.
全局判别器的运算过程是:先通过5次下采样操作再经过1次激活函数处理来实现图像判别. 每次下采样包括1个卷积层(convolution layer )和1个批量标准化层(batch normalization layer ),采用Leaky Relu 激活函数,在第5次下采样操作后通过Sigmoid 激活函数输出最终结果. 局部判别器的运算过程是:先通过4次下采样操作再经过1次Sigmoid 激活函数处理来实现局部图像判别.其中,每次下采样操作均与全局判别器的下采样操作相同.
2.4    结构相似性损失
S (p )结构相似性[19]从图像组成的角度定义结构信息,反映物体的结构属性. 使用均值估计亮度,标准差估计对比度,协方差估计结构相似程度,结构相似性可表示为
p x 11×
11y 11×11µx x σx x µy y σy y σxy x 、y C 1C 2x G (x )式中:为一个图像块的中心像素,为大小为的水下图像块,为大小为的生成图像块,
为的均值,为的标准差,为的均值,为
的标准差,为的协方差,=0.02,=0.03.
当结构相似性已知,输入
的水下图像与生成图
像之间的全局结构相似性损失为
x ′
G (
x ′)对于局部判别器,从水下图像中随机裁剪出
的局部小块和对应的生成图像局部小块之
间的局部结构相似性损失为
网络模型总体损失函数为
λ1λ2根据训练数据和实验结果,选取权重、、
λ3λ4和的值分别为5、3、5、3. 基于训练集的启发
式实验发现结构相似性损失与生成器损失同样重要,因此所有结构相似性损失之和与所有生成器损失之和占有相同的权重比例. 同时为了避免局部损失过高导致全局效果不理想的现象,适当降低局部结构相似性损失和局部生成器损失的权重,以达到全局损失与局部损失的平衡.
3  实验结果分析
训练集包括3 800张水下图像和3 800张清晰的陆地图像,这些图像来自于Li 等[20-21]提供的数据集. 所有训练图像都调整为256×256大小. 采用Adam 优化器,学习率设为0.000 1,批量处理大小为16. 网络实现基于Pytorch 框架,使用NVIDIA 1080Ti GPU.
将本文算法与文献[12]、[9]、[10]、[21]这4种经典的水下图像增强算法分别从主观评价和客观指标上进行对比分析,测试集为3 600张水下图像,所用图片来源于网络和Islam 等[22]提供的数据集.
3.1    主观评价
本文算法与现有的4种经典水下图像增强算
法的对比结果如图4所示. 文献[12]算法处理后的图像远景处理效果不够理想,远景偏仍然存在,有些图像还出现了颜过饱和问题. 该算法引入过多的参数,导致该算法鲁棒性不高. 文献[9]算法处理后的图像整体偏黄,局部视觉效果不够自然. 文献[10]算法处理后的图像噪声明显,图像整体偏暗,局部清晰度不高. 文献[21]算法处理后的图像有局部偏没有去除,局部对比度较低.这4种算法都仅对全局图像进行增强,无法实现局部区域特定增强,导致整体视觉效果不佳. 通过与这4种算法对比,本文算法修正了图像偏,实现了图像局部区域的特定增强,整体亮度提升,视觉效果更为清晰自然.
为了突出本文算法能够有效地保留更多的图像细节,将本文算法增强后的图像与文献[12]、[9]、[10]、
[21]这4种经典的水下图像增强算法增强后的图像进行相同位置、相同倍数的放大处理,对比结果如图5所示. 经过局部放大后,本文算法处理后的图像比原始水下图像以及4种经典的水下图像增强算法增强后的图像具有更加清晰的纹理结构. 本文算法可以修复图像更多细
第 3 期
雍子叶, 等:融入注意力机制的弱监督水下图像增强算法[J]. 浙江大学学报:工学版,
2021, 55(3): 555–562.
559

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。