基于SE注意力CycleGAN的蓝印花布单纹样自动生成
作者:冉二飞 贾小军 喻擎苍 谢昊 陈卫彪
正则化是每一层都加还是只加一些层来源:《丝绸》2024年第01期
        摘要: 根據蓝印花布纹样的风格特征,文章提出一种端到端的蓝印花布纹样自动生成方法,实现简笔画图像向蓝印花布单纹样的自动迁移。针对蓝印花布的抽象风格和小数据集问题,重新构造CycleGAN生成网络中的编码器和解码器,使用SE(squeeze and excitation)注意力模块和残差模块与原始的卷积模块串联,提高特征提取能力和网络学习能力。同时减少生成网络中转换器的残差块层数,降低过拟合。实验结果表明,基于SE注意力CycleGAN网络方法自动生成的蓝印花布新纹样主观性上更贴合原始风格,与原图更加接近,有助于蓝印花布的数字化传承和创新。
        关键词: 蓝印花布;SE注意力;风格迁移;CycleGAN;单纹样;半监督学习;图像生成
        中图分类号: TS941.2; TP391.7 文献标志码: A
       
        文章编号: 1001-7003(2024)01-0031-07
        DOI: 10.3969/j.issn.1001-7003.2024.01.004
       
        蓝印花布源于唐宋,盛于明清,是中国传统的民间手工艺品。作为首批列入国家级非物质文化遗产名录的民间传统工艺,其使用简单淳朴的蓝白两,创造出绚丽多姿的艺术世界,因其纹样设计风格特征鲜明、“线断意连”而闻名于世。目前对蓝印花布的研究,大都是从纹样的视觉语义寓意,历史发展和制作工艺角度进行[1-3],而对于纹样的自动生成技术研究略显单薄,且往往不够简单实用[4-5]。随着深度学习的发展,尤其是图像风格迁移研究的进展,提供了扩展蓝印花布纹样的新思路,即将其他风格的简单图像转化为蓝印花布风格的纹样,从而大大提高蓝印花布设计的效率,有利于创新蓝印花布纹样。
        图像的风格迁移是两个不同域中图像的转换,具体来说就是提供一种风格图像,将任意一张图像转化为这种风格,并尽可能保留原图像的内容。如今实现风格迁移的方法多种多样,大致分为基于神经网络的图像风格迁移和基于对抗生成网络的图像风格迁移。Gatys等[6]首先将深度学习运用在风格迁移任务上,利用Gram矩阵将图像表示为内容和风格两部分,通过图像重建使内容图的Gram矩阵逼近风格图的Gram矩阵。这种方法可以生成风格图像,但是收敛速度慢,渲染时间长。Wang等[7]为了减少伪影,引入了相似性损失函数,添加了一个后处理细化步骤。其方法可以稳定地对摄影作品的图像进行风格转换。Luan等[8]约束卷积神经网络从输入到输出的变换,使其表示为颜空间中的局部仿射,实现了
如天气、季节等多种场景的艺术风格转换,但是风格迁移的效率低下,效果一般。Johnson等[9]使用在ImageNet上预训练的VGGNet简化损失函数计算过程,使效率得到较大提升,但该方法需要构造复杂的损失函数。Goodfellow等[10]提出了生成对抗网络理论(GAN),GAN为图像风格转换提供了新的思路,掀起了新的研究热潮。Mirza等[11]提出了带有条件约束的cGAN(conditional GAN),该模型通过对输入图像额外增加一个条件标签,来引导模型生成方向。Isola等[12]提出了Pix2Pix算法模型,通过图像作为输入来进行图像风格转换,而不是传统的噪音,大大提升了生成图像的可控性。cGAN和Pix2Pix都需要配对的数据集,但是在很多情况下,并没有完美的成对数据集。Zhu等[13]提出了CycleGAN算法模型,摆脱了配对训练数据集的限制要求,使用半监督的方式实现不同风格之间的图像转换,如将马转化为斑马、春夏秋冬的转换、油画和真实图像的转换等,但CycleGAN在几何形状改变方面表现不佳。Chen等[14]提出CartoonGAN,用于将现实图像转化为漫画风格。该模型在CycleGAN的基础上针对卡通图像加入边缘对抗损失,使生成的图像具有漫画图像一样的清晰边缘,但在处理现实人脸到漫画人脸这类形变较大的转换时效果不佳。
        以上模型大多只对于图像纹理与调的风格进行转换,忽略了几何形变方面的风格转换。
蓝印花布的风格有很强的抽象特性,为了稳定生成蓝印花布的纹样,针对上述图像风格化存在问题,本文使用SE注意力机制改进CycleGAN模型来
        实现蓝印花布纹样图像的风格迁移。对生成网络中的编码器和解码器进行重构,提升CycleGAN模型几何形变方面的能力,使得生成结果贴近蓝印花布纹样的抽象风格。
        1 CycleGAN原理
        GAN模型由生成网络和判别网络组成,其目标是让生成网络的模型学会一种映射,使得原始域的数据分布拟合目标域的数据分布。在训练过程中,生成网络需要生成伪造的样本使判别网络判断为真,而判别网络则要尽力判别输入样本是真实样本还是生成的伪造样本,两个神经网络在这个对抗中不断优化,最后网络模型能够输出接近样本分布的数据。GAN的优化目标可以看成是一个极大极小博弈,在训练最后的生成网络和判别网络之间实现纳什均衡,使得生成网络能够生成接近样本数据分布特征的目标数据。其目标方程[10]为:
        式中:G表示生成网络,D表示判别网络,Pdata表示真实样本x的分布,Pz表示输入的噪声z的分布,V表示损失函数,E表示数学期望,G(z)表示生成网络G根据噪声z生成的假
图像,D(x)和D(G(z))分别表示判别器D判断真实样本x和假图像G(z)是真实样本分布的概率。
        GAN模型在跨域图像风格转换任务上存在一个缺陷,生成网络可能会把原始域映射到目标域上的子集,甚至有可能将原始域全部映射到一张图像上,而判别网络只关注生成图像是否属于目标域,所以仅通过单独的对抗损失,无法达到将原始域映射到目标域的结果。对于这个问题,CycleGAN没有采用像Pix2Pix算法使用严格配对数据集的做法,而是使用循环一致性损失解决这一问题。CycleGAN模型通过第一个生成网络G(x2y),将输入的X域图像转换成Y域,然后通过第二个生成网络F(y2x)转换回来,将原始域中的数据经过两次转换后,转换回来的图像应与原始输入尽量相同。同样地,对于Y域的图像通过F(y2x)和G(x2y)重新生成伪造的Y域图像与原始输入的Y域图像进行比较。通过这种方式解决了X域可能都映射到Y域同一张图像的情况。CycleGAN模型有两个生成网络和两个判别网络,其中两个生成对抗网络中的生成网络共享权重。CycleGAN模型在结构上像一个环形网络,从X域向Y域转换的GAN网络结构如图1所示。
        式中:X、Y分别代表两个数据域,x、y为两个数据域中的样本数据,G为从X到Y的映射函数,F为从Y到X的映射函数,Dx、Dy为判别网络,λ为控制循环一致损失函数的权重。
        2 改进的CycleGAN网络结构
        CycleGAN网络实现了无配对图像集之间的风格迁移,但泛化能力较弱,当训练图像与测试图像之间差距较大时,迁移效果不佳。直接使用CycleGAN进行简笔画向蓝印花布风格纹样转化生成的结果不理想。针对这一问题对原始CycleGAN的生成网络结构进行改进,CycleGAN的生成网络结构由编码器、残差结构和解码器组成。编码器与解码器都是由3个卷积模块组成,每个模块包含一个卷积层、一个实例正则化层及一个Relu激活函数。为了增强CycleGAN网络提取特征的能力,本文提出了使用残差块结构加上原始卷积模块和SE注意力模块取代原卷积模块的方法。
        2.1 注意力机制
        注意力机制(attention mechanism)是解决信息超载问题的一种资源分配方案,当计算资源有限时,可以把计算资源分配给更重要的任务。在神经网络学习过程中,参数越多模型所存储的信息量就越大,模型的表达能力也越强,但这会带来信息过载的问题。引入注意力机制,可以在众多的输入信息中聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,提高任务处理的效率和准确性。
        SE(squeeze and excitation)模块[15]在通道维度增加注意力机制,通过一系列变换操作得到一个权重矩阵,对原特征进行重构来得到更重要的特征信息,关键步骤为压缩(squeeze)和激发(excitation)。通过自动学习的方式,获取特征通道的重要程度,以此为每个特征通道赋予不同的权重值,从而提升对当前任务有用的特征图的通道利用率,并抑制对当前任务影响不大的通道。SE模块的结构[15]如图2所示。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。