paddlepaddle 论文复现—论文阅读心得
基于百度论文复现营的课程活动,选取了一篇生成对抗网络(GAN)方向的经典论文进行阅读,并写一下自己的学习心得。
论文下载地址:https://openreview.net/pdf?id=B1xsqj09Fm
论文源代码:https://github.com/sxhxliang/BigGAN-pytorch
接下来是这篇论文的小结。
这篇文章主要是基于生成对抗网络,在BIGGAN提出之前,已有的GAN类网络,对于ImageNet等复杂的数据集,较难生成精度好,清晰度好,质量好的图片,为了合成具有更高分辨率,具有更好的多样性的图像,作者对生成器应用正交正则化使其能够服从简单的“截断技巧”,允许通过截断潜在空间来精细控制样本保真度和多样性之间的权衡。这样的修改导致模型在类条件图像合成中设置了新的状态。当在ImageNet上以128×128分辨率进行训练时,我们的模型(BigGAN)的初始得分(IS)为166.3。Fre_chet初始距离(FID)为9.6,比之前的最优IS为52.52,FID为18.65。
作者所做的主要工作主要有:
(1)在基线模型 SA-GANs 的基础上增加每个批次的数据量为原来的2、4、8倍,发现增大每个批次训练数据的数量能够带来更好的效果;增加每一层网络的通道数,从而增加训练的参数,这在一定程度上针对大数据集时可以减少过拟合。
(2)舍弃了原先的正态分布和均匀分布,采用截断技巧,并采用共享嵌入方法将类别条件线性投影到每个 BatchNorm 层的增益(gain)和偏置(bias),从而降低了计算和内存成本,提高了训练速度,使得训练的效果也更加好。
(3)通过正交正则化来解决一些较大模型使用截断技巧造成的饱和伪影问题,将生成器调节平滑,强制使其适应截断技巧,从而更有效利用整个随机噪声向量空间合成更高质量的样本。
论文主要方法:
(1)加大每个批次训练数据,每个批次的训练数据量增大到2048.
(2)增加每一层网络的通道数为先前工作的1.5倍,使网络参数的数量增加为原来的2~4倍。
(3)类别条件线性投影到每个 BatchNorm 层的增益(gain)和偏置(bias),从而降低了计算和内存成本,提高了训练速度,而不是为每个嵌入分别设置单独一层,需要注意的是标签控制条件 c 并输入到第一层网络,如下图:
(4)BIGGAN的另一个优势就是采用了正交正则化,可以将G平滑,这样就解决了好多模型不能使用截断技巧的难题,BigGAN 这里所采用的正交正则化方法与传统的正交正则化是有区别的,从正则化中删除对角线项,从而最小化滤波器之间的成对余弦相似性,但并不限制它们的范数。
(5)硬件计算平台:128 ~ 512 个核的 Google TPUv3 Pod
(6)对于生成器和判别器的不稳定性及对策主要是采用正则化,对于生成器,正则化每一个权重最大奇异值或者偏奇异值分解。对于判别器,通过设置不同强度的正交正则化、DropOut、L2 等正则化策略的试验都证明:惩罚 D 的力度足够大时,训练就变得稳定,但是会严重牺牲性能。
实验过程:ImageNet ILSVRC 2012(128x128、256x256、512x512)、JFT-300M(更大、更复杂、更多样)、CIFAR-10(32323)图像超分辨率等数据集。不同的试验工况结果如下:
初始分数与弗雷歇初始距离:
初始分数(IS) | 弗雷歇初始距离(FID) | 分辨率 | |
真实图像 | 233 | 128*128 | |
SAGAN | 52.52 | 18.65 | 128*128 |
BIGGAN | 166.3 | 9.6 | 128*128 |
BIGGAN | 232.5 | 8.1 | 256*256 |
BIGGAN | 241.5 | 11.5 | 512*512 |
其中,初始分数(Inception Score,IS) 和弗雷歇初始距离(Fréchet Incepton Distance,FID)是目前评价 GANs 合成样本最常用的两个评价标准。初始分数(Inception Score,IS) 数值越大,GANs 合成的样本质量越高,弗雷歇初始距离(Fréchet Incepton Distance,FID)数值越小,GANs 合成的样本质量越高。
515*512分辨率图像合成的结果:
可以看出,作者提出的BIGGAN网络,提高了生成图像样本的分辨率和多样性。
最后,还是很感谢百度能提供这样一个免费的平台进行学习交流。
参考文献:
https://blog.csdn.net/sdnuwjw/article/details/94737635?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param
细致到位
成功复现了吗?
赞!
很详细