GAN对抗神经网络(原理解析)--688IT编程网

GAN对抗神经⽹络（原理解析）

⼀、总结

⼀句话总结：

> (⼀)、GAN的主要灵感来源于博弈论中零和博弈的思想，应⽤到深度学习神经⽹络上来说，就是

> (⼆)、**通过⽣成⽹络G（Generator）和判别⽹络D（Discriminator）不断博弈，进⽽使G学习到数据的分布**，

> (三)、如果⽤到图⽚⽣成上，则训练完成后，G可以从⼀段随机数中⽣成逼真的图像。

1、对抗神经⽹络中的⽣成器和鉴别器分别作⽤是什么？

> G是⼀个⽣成式的⽹络，它接收⼀个随机的噪声z（随机数），通过这个噪声⽣成图像

> D是⼀个判别⽹络，判别⼀张图⽚是不是“真实的”。它的输⼊参数是x，x代表⼀张图⽚，输出D（x）代表x为真实图⽚的概率，如果为1，就代表100%是真实的图⽚

2、GAN对抗神经⽹络的特点是什么？

> ⼀、相⽐较传统的模型，他存在两个不同的⽹络，⽽不是单⼀的⽹络，并且训练⽅式采⽤的是对抗训练⽅式

> ⼆、GAN中G的梯度更新信息来⾃判别器D，⽽不是来⾃数据样本

3、GAN对抗神经⽹络模式崩溃(model collapse)原因：⼀般出现在GAN训练不稳定的时候，具体表现为⽣成出来的结果⾮常差，但是即使加长训练时间后也⽆法得到很好的改善？

> ⼀)、GAN采⽤的是对抗训练的⽅式，G的梯度更新来⾃D，所以G⽣成的好不好，得看D怎么说。

> ⼆)、具体就是G⽣成⼀个样本，交给D去评判，D会输出⽣成的假样本是真样本的概率（0-1），相当于告诉G⽣成的样本有多⼤的真实性，G就会根据这个反馈**不断改善⾃⼰，提⾼D输出的概率值**。

> 三)、但是如果某⼀次G⽣成的样本可能并不是很真实，但是D给出了正确的评价，或者是G⽣成的结果中⼀些特征得到了D的认可，这时候G就会认为我输出的正确的，

> 四)、那么接下来我就这样输出肯定D还会给出⽐较⾼的评价，实际上G⽣成的并不怎么样，但是他们两个就这样⾃我欺骗下去了，导致最终⽣成结果缺失⼀些信息，特征不全。

4、为什么GAN中的优化器不常⽤SGD？

> I)、SGD容易震荡，容易使GAN训练不稳定，

> II)、GAN的⽬的是在⾼维⾮凸的参数空间中到纳什均衡点，GAN的纳什均衡点是⼀个鞍点，但是SGD只会到局部极⼩值，因为SGD解决的是⼀个寻最⼩值的问题，GAN是⼀个博弈问题。

5、为什么GAN不适合处理⽂本数据？

> ①)、⽂本数据相⽐较图⽚数据来说是离散的，因为对于⽂本来说，通常需要将⼀个词映射为⼀个⾼维的向量，最终预测的输出是⼀个one-hot向量

> ②)、另外就是GAN的损失函数是JS散度，JS散度不适合衡量不想交分布之间的距离。

> ③)、WGAN虽然使⽤wassertein距离代替了JS散度，但是在⽣成⽂本上能⼒还是有限，GAN在⽣成⽂本上的应⽤有seq-GAN，和强化学习结合的产物

6、训练GAN的⼀些技巧？

> (I)、输⼊规范化到（-1，1）之间，最后⼀层的激活函数使⽤tanh（BEGAN除外）

> (II)、使⽤wassertein GAN的损失函数，

> (III)、避免使⽤RELU和pooling层，减少稀疏梯度的可能性，可以使⽤leakrelu激活函数

> (IV)、优化器尽量选择ADAM，学习率不要设置太⼤，初始1e-4可以参考，另外可以随着训练进⾏不断缩⼩学习率，

输⼊规范化到（-1，1）之间，最后⼀层的激活函数使⽤tanh（BEGAN除外）

神经网络中正则化是为了干什么使⽤wassertein GAN的损失函数，

如果有标签数据的话，尽量使⽤标签，也有⼈提出使⽤反转标签效果很好，另外使⽤标签平滑，单边标签平滑或者双边标签平滑

使⽤mini-batch norm，如果不⽤batch norm 可以使⽤instance norm 或者weight norm

避免使⽤RELU和pooling层，减少稀疏梯度的可能性，可以使⽤leakrelu激活函数

优化器尽量选择ADAM，学习率不要设置太⼤，初始1e-4可以参考，另外可以随着训练进⾏不断缩⼩学习率，

给D的⽹络层增加⾼斯噪声，相当于是⼀种正则

7、GAN的⼴泛应⽤？

> *、GAN本⾝是⼀种⽣成式模型，所以在数据⽣成上⽤的是最普遍的，最常见的是图⽚⽣成，常⽤的有DCGAN WGAN，BEGAN，个⼈感觉在BEGAN的效果最好⽽且最简单。

> *、GAN本⾝也是⼀种⽆监督学习的典范，因此它在⽆监督学习，半监督学习领域都有⼴泛的应⽤

> *、不仅在⽣成领域，GAN在分类领域也占有⼀席之地，简单来说，就是替换判别器为⼀个分类器，做多分类任务，⽽⽣成器仍然做⽣成任务，辅助分类器训练。

> *、⽬前⽐较有意思的应⽤就是GAN⽤在**图像风格迁移，图像降噪修复，图像超分辨率了，都有⽐较好的结果**。

⼆、GAN对抗神经⽹络（原理解析）

转⾃或参考：深度学习----GAN（⽣成对抗神经⽹络）原理解析

blog.csdn/Sakura55/article/details/81512600

⼀、原理部分

⾸先附上⼀张流程图

1.1、 GAN的原理：

GAN的主要灵感来源于博弈论中零和博弈的思想，应⽤到深度学习神经⽹络上来说，就是**通过⽣成⽹络G（Generator）和判别⽹络D（Discriminator）不断博弈，进⽽使G学习到数据的分布**，如果⽤到图⽚⽣成上，则训练完成后，G可以从⼀段随机数中⽣成逼真的图像。G， D的主要功能是：

G是⼀个⽣成式的⽹络，它接收⼀个随机的噪声z（随机数），通过这个噪声⽣成图像

D是⼀个判别⽹络，判别⼀张图⽚是不是“真实的”。它的输⼊参数是x，x代表⼀张图⽚，输出D（x）代表x为真实图⽚的概率，如果为1，就代

表100%是真实的图⽚，⽽输出为0，就代表不可能是真实的图⽚

训练过程中，⽣成⽹络G的⽬标就是尽量⽣成真实的图⽚去欺骗判别⽹络D。⽽D的⽬标就是尽量辨别出G⽣成的假图像和真实的图像。这

样，G和D构成了⼀个动态的“博弈过程”，最终的平衡点即纳什均衡点.

1.2、架构

通过优化⽬标，使得我们可以调节概率⽣成模型的参数

，从⽽使得⽣成的概率分布和真实数据分布尽量接近。

那么怎么去定义⼀个恰当的优化⽬标或⼀个损失？传统的⽣成模型，⼀般都采⽤数据的似然性来作为优化的⽬标，但GAN创新性地使⽤了另外⼀种优化⽬标。⾸先，它引⼊了⼀个判别模型（常⽤的有⽀持向量机和多层神经⽹络）。其次，它的优化过程就是在寻⽣成模型和判别模型之间的⼀个纳什均衡。

GAN所建⽴的⼀个学习框架，实际上就是⽣成模型和判别模型之间的⼀个模仿游戏。**⽣成模型的⽬的，就是要尽量去模仿、建模和学习真实数据的分布规律；⽽判别模型则是要判别⾃⼰所得到的⼀个输⼊数据，究竟是来⾃于真实的数据分布还是来⾃于⼀个⽣成模型。**通过这两个内部模型之间不断的竞争，从⽽提⾼两个模型的⽣成能⼒和判别能⼒。

~ 当⼀个判别模型的能⼒已经⾮常强的时候，如果⽣成模型所⽣成的数据，还是能够使它产⽣混淆，⽆法正确判断的话，那我们就认为这个⽣成模型实际上已经学到了真实数据的分布。

1.3、 GAN 的特点及优缺点：

特点

相⽐较传统的模型，他存在两个不同的⽹络，⽽不是单⼀的⽹络，并且训练⽅式采⽤的是对抗训练⽅式

GAN中G的梯度更新信息来⾃判别器D，⽽不是来⾃数据样本

优点

（以下部分摘⾃ian goodfellow 在Quora的问答）

GAN是⼀种⽣成式模型，相⽐较其他⽣成模型（玻尔兹曼机和GSNs）只⽤到了反向传播,⽽不需要复杂的马尔科夫链相⽐其他所有模型, GAN可以产⽣更加清晰，真实的样本

GAN采⽤的是⼀种⽆监督的学习⽅式训练，可以被⼴泛⽤在⽆监督学习和半监督学习领域

相⽐于变分⾃编码器, GANs没有引⼊任何决定性偏置( deterministic bias)，变分⽅法引⼊决定性偏置，因为他们优化对数似然的下界,⽽不是似然度本⾝，这看起来导致了VAEs⽣成的实例⽐GANs更模糊

相⽐VAE, GANs没有变分下界，如果鉴别器训练良好，那么⽣成器可以完美的学习到训练样本的分布.换句话说,GANs是渐进⼀致的，但是VAE是有偏差的

GAN应⽤到⼀些场景上，⽐如图⽚风格迁移，超分辨率，图像补全，去噪，避免了损失函数设计的困难，不管三七⼆⼗⼀，只要有⼀个的基准，直接上判别器，剩下的就交给对抗训练了。

缺点

训练GAN需要达到纳什均衡，有时候可以⽤梯度下降法做到，有时候做不到.我们还没有到很好的达到纳什均衡的⽅法，所以训练GAN相⽐VAE或者PixelRNN是不稳定的，但我认为在实践中它还是⽐训练玻尔兹曼机稳定的多

GAN不适合处理离散形式的数据，⽐如⽂本

GAN存在训练不稳定、梯度消失、模式崩溃的问题（⽬前已解决）

附：模式崩溃(model collapse)原因

⼀般出现在GAN训练不稳定的时候，具体表现为⽣成出来的结果⾮常差，但是即使加长训练时间后也⽆法得到很好的改善。

具体原因可以解释如下：

GAN采⽤的是对抗训练的⽅式，G的梯度更新来⾃D，所以G⽣成的好不好，得看D怎么说。具体就是G⽣成⼀个样本，交给D去评判，D会输出⽣成的假样本是真样本的概率（0-1），相当于告诉G⽣成的样本有多⼤的真实性，G就会根据这个反馈**不断改善⾃⼰，提⾼D输出的概率值**。但是如果某⼀次G⽣

成的样本可能并不是很真实，但是D给出了正确的评价，或者是G⽣成的结果中⼀些特征得到了D的认可，这时候G就会认为我输出的正确的，那么接下来我就这样输出肯定D还会给出⽐较⾼的评价，实际上G⽣成的并不怎么样，但是他们两个就这样⾃我欺骗下去了，导致最终⽣成结果缺失⼀些信息，特征不全。

局部极⼩值点

688IT编程网

GAN对抗神经网络(原理解析)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

GAN对抗神经网络(原理解析)

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则