百度飞桨论文复现营:https://aistudio.baidu.com/aistudio/education/group/info/1340
百度飞桨论文复现营论文解读,把论文的目标,解读得非常明确。把实现目标的方法也整理得很清晰。源码结构也分析得很到位。百度深度学习平台,飞桨PaddlePaddle符合中国人的习惯,使用非常方便,即使最难的反向传播使用起来也变得易如反掌。值得大力推广。AI Studio课程平台,内容真材实货,也是动手实践的好平台。推荐大家使用百度深度学习平台进行学习深度学习。
论文解读笔记
论文:StarGANv2: Diverse Image Synthesis for Multiple Domains
多个领域的多样化图像合成
目标:生成图像多样化,多个域上具有可扩展性
作者动机:图像多领域,多样性,而StarGan缺乏多样性。
论文方法:
网络结构:
1、StarGANv2:使用所提出的domain-specific style code替换域标签,前者可表示特定领域的各种风格样式。引入两个模块,一个映射网络mapping network和一个样式编码器style encoder。映射网络学习将随机高斯噪声转换为样式码(style code),而编码器则学习从给定的参考图像中提取样式码。两个模块都具有多个输出分支,每个分支都提供特定域的样式码,训练时将选取其中对应domain的一个。
2、生成器Generator:将输入图像x转换为G(x,s),s为样式码style code,可以由映射网络F或者样式编码器E提供。使用adaptive instance normalization (AdaIN) 引入s。删除了上采样residual blocks中的所有shortcut,并使用基于adaptive wing based heatmap添加了跳跃连接。
3、映射网络Mapping network:网络包括k个输出分支,表示有k个域,给定隐变量z和对应的域y,生成样式码=()
4、样式编码器Style encoder:网络包括k个输出分支,表示有k个域,给定图像x及其对应的域y,编码器E提取x的样式码=。D代表了样式码S的维度。
5、鉴别器Discriminator:网络包括k个输出分支,表示有k个域,每个分支都学习一个二元分类,确定图像x是域y的真实图像还是G生成的伪图像,因此输出维度D被设定为1,作为real/fake的分类。
训练目标
1、对抗目标adversarial loss
2、风格多样性Style diversification
3、风格多样性Style diversification
4、保留源图特性Preserving source characteristics
5、总体目标
量化评价
1、Frechétinception distance (FID)衡量真实图像和生成图像之间的差异性
通过加载经过预训练的Inception v3模型,使用最后一个池化层的激活函数输出值作为特征向量,计算出真实图像和生成图像在特征层面的距离。FID 越低,图像质量越好;反之,得分越高,质量越差。
2、Learned perceptual image patch similarity (LPIPS) 衡量生成图像的多样性
计算生成图像从预训练的AlexNet中提取的特征之间的距离LPIPS越大,生成图像多样性越高
学习了