旭日生辉 文
百度顶会论文复现营AI Studio课程主页:
https://aistudio.baidu.com/aistudio/education/group/info/1340
原始论文:Large Scale GAN Training for High Fidelity Natural Image Synthesis
论文链接:https://arxiv.org/pdf/1809.11096.pdf
一、问题背景:
图像生成是目前人工智能研究的热门领域,这几年发展起来的GAN方法站在了图像生成的最前沿,其生成器通过对噪声数据的学习,并与鉴别器进行对抗博弈,可以生成相对保真、多样化的图像。
可是,如果用IS指标(Inception Score)衡量图像保真度与多样性的效果,则其生成器在ImageNet建模上的最佳IS结果与真实数据的IS之比为52.5 : 233,相差4倍有余,差距依然很大。
二、论文主要贡献:
Andrew Brock以及DeepMind的Jeff Donahue和Karen Simonyan2019年在ICLR发表的这篇论文,研究了通过扩大训练规模大大缩小IS差距,从而提升保真度和多样化。该研究虽然在数学原理上并未创新,但是依赖强大算力扩大训练规模和参数以提升性能,能够生成高分辨率的图像。想必BigGAN的叫法因此而来吧。
先来看看BigGAN生成图像的逆天效果吧!
经过ImageNet上进行128×128分辨率的训练后,BigGAN的Inception Score(IS)得分是166.3,比之前SA-GAN(Zhang et al., 2018)的52.52的最佳得分提升了3倍多,离真实图像的IS 233分更近了。而Frechet Inception Distance(FID)得分,也从之前的18.65优化减小到9.6。
坏消息是,该论文也发现,规模扩大是一个双刃剑:GAN模型以更少的迭代次数达到了更好的性能,但副作用是规模越大、稳定性越差,直至发生训练崩塌。
因此,作者在该论文中对以上问题提出了解决方法,归结起来主要有以下关键元素:
- 扩展训练规模 —— 通过把网络参数增加2-4倍、批次大小增加8倍,GAN生成的图像保真度以及多样化同步得到大幅度改善:
2. 利用截断技巧(Truncated Trick)对保真度与多样化做出权衡 —— 由于GAN可以利用任意的先验概率p(z)进行学习,之前的研究理所当然的选用高斯分布N(0,I)或者均匀分布U[-1,1]来采样,本文作者挑战了这一最优性假设,采用截断技巧进行噪声学习。具体方法是:对从先验分布 z 采样,通过设置阈值的方式来截断 z 的采样,其中超出范围的值被重新采样以落入该范围内。这个阈值可以根据生成质量指标 IS 和 FID 决定。可以根据实验的结果好坏来对阈值进行设定,当阈值的下降时,生成的质量会越来越好,但是由于阈值的下降、采样的范围变窄,就会造成生成上取向单一化,造成生成的多样性不足的问题。
3. 利用谱归一化(Spectral Normalization)改善训练不稳定问题 —— 谱归一化通过对奇异值估计参数的归一化,迫使鉴别器D因Lipschitz连续性诱导出正则化方案,使得生成器G的性能取决于条件化(Conditioning),从而提升G的稳定性并使D的迭代变得更少。
4. 利用正交正则化(Orthogonal Regularization)通过迫使G有条件平滑来改善截断效果 —— 在某些情况下,截断噪声输入可能导致较大的模型承受不了截断技巧,产生如下Figure2(b)所示的饱和伪影。通过迫使生成器G有条件平滑以便概率分布z的全部空间都能映射到好的样本上,来提升网络对截断技巧的承受力,减少饱和伪影现象。
作者发现,不使用正交正则化,仅有16%的模型可以截断;使用正交正则化后,60%的模型可以被截断。
三、总结:
作者发现稳定性不只是来自生成器G和判别器D,而是更多来自二者的互动博弈。尽管二者不良条件化可以作为追踪和识别不稳定性的症状,确保合理的条件化对训练有必要,但不足以避免训练崩塌。而要避免训练崩塌,对鉴别器D施加强约束才有可能,但要以性能的牺牲为代价。在当前的技术能力下,获得更好的最终性能可以在放松条件化并允许崩塌在训练的后期发生,因为那时模型已经训练到足够好,能够获得满意的结果。
四、感悟:
要深入一个领域,读论文就是攀登一座座从未去过的山峰,艰难困苦却其乐无穷,顶会论文更是代表着人工智能领域思想的先锋、知识的瑰宝和智慧的结晶,感谢百度飞桨设置的又一精品课程,通过复现顶会论文成果,让我们有机会体验大师们走过的路,一览智慧山峰的无限风光。
2020.8.6
于北京
消灭零回复~~
顶
第二个沙发
赞!
有没有复现出来的代码!学习学习