首页 AI Studio教育版 帖子详情
飞桨论文复现-StarGAN v2
收藏
快速回复
AI Studio教育版 文章课程答疑 832 1
飞桨论文复现-StarGAN v2
收藏
快速回复
AI Studio教育版 文章课程答疑 832 1

论文复现课程:https://aistudio.baidu.com/aistudio/education/group/info/1340

论文题目:StarGANv2: Diverse Image Synthesis for Multiple Domains

论文介绍:

任务:实现多领域间的多样化图像转换(image-to-image translation),即生成图像多样化和多个域上具有可扩展性。

模型:  由于StarGAN缺乏多样性,即

  • StarGAN是最早的针对多领域更具扩展性、统一的框架之一,但仍然学习每个域的确定性映射,没有掌握数据分布的多样性(mutil-modal)本质。   
  •  该限制的原因是每个域都由预先定义标签来表示。生成器接收固定的标签(例如一个one-hot向量)作为输入,在给定源图像下,每个域都产生相同输出。   

             

StarGANv2 网络结构

              StarGANv2,使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder。包含四个模块:生成器、映射网络、样式编码器、判别器。

 

  • 生成器:生成器G将输入图像x转换为输出图像G(x,s)G(x,s)G(x,s),后者体现的是特定domain的风格码s(style encode),由映射网络(Mapping Network)F或样式编码器(Style Encoder)E提供。使用自适应实例规范化(AdaIN)将s注入G中。删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接。
  • 映射网络 Mapping network:给定一个潜码(latent code)z和一个域y,映射网络F生成样式码s=Fy(z)s=Fy(z)s=Fy(z)。F由具有多个输出分支的MLP组成,可为所有可用域提供样式码。F可以通过对潜在向量z∈Z和域y∈Y随机采样来产生多种样式码。多任务体系结构使F可以高效地学习所有域的样式表示。
  • 样式编码器 Style encoder:网络包括k个输出分支,给定图像x及其对应的域y,样式编码器E提取x的样式码s=Ey(x)s=Ey(x)s=Ey(x)。与F(映射网络)相似,样式编码器E受益于多任务学习设置, 可使用不同的参考图像x生成不同的样式码。这可以让G合成参考图像x的样式s的输出图像。
  • 鉴别器Discriminator:鉴别器D是一个多任务鉴别器,网络包括k个输出分支,表示有k个域,每个分支DyDyDy学习二值分类,确定图像x是其域y的真实图像还是由G生成的伪图像G(x,s)G(x,s)G(x,s)。因此输出维度D被设定为1,作为real/fake的分类,用来判断图片是真是假。

 

数据集:发布了一个新的动物面孔数据集Animal FacesHQ(AFHQ),其中包括512×512分辨率的15,000张高质量图像。数据集包括猫,狗和野生动物的三个域,每个域提供5000张图像。

训练目标:

 

量化评价:

 

论文总结:

     论文解决了图像到图像转换的两个主要挑战,将一个域的图像转换为目标域的多种图像,并支持多个目标域。StarGAN v2可以在一个框架内解决了两个问题。

 

 

 

1
收藏
回复
全部评论(1)
时间顺序
AIStudio810258
#2 回复于2020-08

期待复现!

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户