飞桨PaddlePaddle论文复现训练营顶会论文StarGAN v2分享
课程学习连接:https://aistudio.baidu.com/aistudio/education/group/info/1340
论文题目:StarGAN v2: Diverse Image Synthesis for Multiple Domains
作者:Yunjey Choi,Youngjung Uh,Jaejun Yoo2,Jung-Woo Ha1
来源:CVPR2020
论文摘要:
一个好的图像到图像的翻译模型在学习到满足不同视觉域之间的映射时应该具有如下特性:(1)生成图像的多样性和(2)在多个域上的可伸缩性。现有方法只能解决其中一个问题,在所有视觉域中只具有有限的多样性或多模型性。本论文提出StarGAN v2框架可以同时解决上述两个问题,且实验结果显著地超过基线。 在CelebAHQ数据集和新的动物面孔数据集(AFHQ)上的实验验证了该模型在视觉质量,多样性和可扩展性方面的优势。为了更好地评估图像到图像翻译模型,发布了AFHQ数据集,具有较大的内外域差别的高品质动物脸部图片。 代码、预训练模型、数据集可在clovaai / stargan-v2中找到。
论文主要内容:
1、StarGAN的回顾
StraGAN的网络结构如下图所示:
StarGAN的缺点:
(1)StarGAN是最早的针对多领域且具有扩展性和统一性的框架之一,学习的是每个域的确定性映射,缺乏反映数据分布的多样性的本质
(2)造成这种结果的原因是每个域都由预定义标签进行表示。生成器接收固定标签作为输入,从而在给定源图像下,每个域产出相同的输出。
2、论文提出的StarGANv2
(1)StarGANv2提出的框架结构如下图所示:
使用domain-specfic style code技术来替换域标签,可以表示特定领域的不同风格和和样式。引入两个模块,分别是映射网络的mapping network和一个样式编码器style encoder,如下图网络结构中的(b)和(c)
mapping network模块用于把随机噪声转换为样式编码,style encoder模块用于从给定的参考图像中提取样式编码。它们都具有多个输出分支,每个输出分支用于提供特定域的样式码。
网络结构中的生成器Generarot用于将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或样式编码器E提供。
网络结构中的鉴别器Discriminator用于学习一个二元分类,确定图像x是域y的真实图像还是G生成的伪图像。
(2)训练目标
对抗目标如公式(1)所示:
风格重构目标如公式(2)所示:
风格多样性目标如公式(3)所示:
保留原图特性目标如公式(4)所示:
总体目标如公式(5)所示:
3、结果
消灭一下零回复~