飞桨PaddlePaddle论文复现

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

小小公主mini516 发布于2020-08

本人参与了百度飞桨GAN和视频分类论文复现课程（https://aistudio.baidu.com/aistudio/education/group/info/1340）。

课程中可以从以下论文选择一篇论文进行复现。

GAN

1.Large scale GAN training for high fidelity natural image synthesis

高保真度自然图片合成的大规模GAN训练

2.Few-shot Video-toVideo Synthesis

小样本视频到视频的生成

3.StarGAN v2: Diverse Image Synthesis for Multiple Domains

多样化的图片合成用于多个领域

4.U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation

具有自适应层的无监督生成注意网络图像转换

5.First Order Motion Model for Image Animation

图像动画化一阶运动模型

视频分类：

1.ECO: Efficient Convolutional Network for Online Video Understandin

用于在线视频理解的高效卷积网络

2.Temporal Pyramid Network for Action Recognition

时间金字塔网络行为识别

3.3D ResNets for Action Recognition

3D ResNets行为识别

4.Representation Flow for Action Recognition

光流表示行为识别

我个人没有任何GAN和视频分类的经验，只是在课程中学习了基础GAN 和TSN. 这2个方向跟我之前工作中做的东西都没什么关系，我选择论文主要考虑在我的认知内有用或者不要费太多时间。

以下4篇我觉得可以仔细看看。

一、有用

我一开始考虑的是视频分类，因为现在视频业务量大，感觉可以接触了解一下。但是我感觉这些论文提到的分类类别，我不了解实际工作生活中具体用处；耗费资源大，也不知道上完课后后有没有这么多资源继续。觉得第一篇ECO: Efficient Convolutional Network for Online Video Understandin还比较实用，速度即快，精度也还可以，还可以在线分类。

在GAN的论文里，我觉得Few-shot Video-toVideo Synthesis 和First Order Motion Model for Image Animation比较有意思，自己平时就可以玩。

二、不要费太多时间

U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation，这篇论文，提到的GAN,归一化，attention都了解，感觉前置学习内容会少一点。而且代码简洁。

论文具体学习心得：

1、Few-shot Video-toVideo Synthesis

应用：让蒙娜丽莎说话，让大卫雕塑跳舞的快速视频到视频的合成。新街道视频。

论文url： https://arxiv.org/abs/1910.12713v1

代码url：https://github.com/NVlabs/few-shot-vid2vid

此论文的前置论文：

1.pix2pix（Image-to-Image Translation with Conditional Adversarial Networks）

https://blog.csdn.net/u014380165/article/details/98453672

2. pix2pixHD（High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs）

3.vid2vid（Video-to-Video Synthesis）

2 First Order Motion Model for Image Animation

应用：表情迁移，虚拟换衣，动作迁移，Zoom虚拟头像。让万物动起来。

任务描述：Image Animation图像动态化。

给定一张源图片，给定一个驱动视频，生成一段视频，其中主角是源图片，动作是驱动视频中的动作。

eg. 表情迁移：给定一个原图像，给定一个驱动视频，生成一个视频，主题是源人物，视频中源人物的表情是由驱动视频中的表情所确定的。

特点：

通常，我们需要对源人物进行人脸关键点标注、进行表情迁移的模型训练。

但是这篇文章提出的方法只需要在同类别物体的数据集上进行训练即可，比如实现太极动作迁移就用太极视频数据集进行训练，想要达到表情迁移的效果就使用人脸视频数据集voxceleb进行训练。训练好后，我们使用对应的预训练模型就可以达到前言中实时image animation的操作。

好处：不需要大量源图片，实时效果

前置知识：

1、生成对抗网络

基于条件约束的cGAN

2、泰勒展开

一阶运动模型指泰勒展开

3 Image Animation

Monkey-Net首先尝试了通过自监督范式预测关键点来表征姿态信息，测试阶段估计驱动视频的姿态关键点完成迁移工作

模型结构：

整个模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中，该模型通过自监督学习将目标物体的外观和运动信息进行分离，并进行特征表示。而在图像生成模块中，模型会对目标运动期间出现的遮挡进行建模，然后从给定的名人图片中提取外观信息，结合先前获得的特征表示，进行视频合成。

运动估计模块：

输入：源图像S , 驱动图像D

输出：1、密集运动场：表征了驱动图像D中的每个关键点到源图像S的映射关系

2、贴图遮罩：表明了在最终生成的图像中，对于驱动图像D而言，那部分姿态可以通过S扭曲得到，哪部分只能通过impainting得到

S到D有一个较大的形变，直接映射，误差较大，采用的技巧是提出了一个过渡帧R,首先建立R帧到S帧、R帧到D帧的映射，然后再建立D帧到S帧的映射

关键点检测器（keypoint Detector）：来检测图片中的关键点信息

然后采用局部仿射变换，在关键点附近建模它的运动，主要用一阶泰勒展开来实现。

同理，R帧到D帧通过这种方式并行得到

密集运动网络（Dense Motion）：根据前面得到的映射关系J和源图像S产生上面说的2个输出

图像生成模块：图像生成模型，根据输入的图片和第一部分得到的信息，生成一个新的图片

代码地址：https://github.com/AliaksandrSiarohin/first-order-model

后续按照分组再补充

全部评论(12)

18500321173

#2 回复于2020-08

消灭一下零回复

七年期限

#3 回复于2020-08

顶

七年期限

#4 回复于2020-08

前来学习

七年期限

#5 回复于2020-08

18500321173 #2

消灭一下零回复

下次给我留一个哈哈

Mr.郑先生_

#6 回复于2020-08

赞！

Mr.郑先生_

#7 回复于2020-08

思路很清晰

luckydu

#8 回复于2020-08

顶

exemal

#9 回复于2020-08

这个？我觉得主要是给大家消灭回复的，这个作业我到现在还没做呢。

thinc

#10 回复于2020-08

可以

Mr.郑先生_

#11 回复于2020-09

exemal #9

这个？我觉得主要是给大家消灭回复的，这个作业我到现在还没做呢。

哈哈哈哈

七年期限

#12 回复于2020-09

exemal #9

这个？我觉得主要是给大家消灭回复的，这个作业我到现在还没做呢。

手动狗头

AIStudio810258

#13 回复于2020-09

这是个挺有意思的项目啊