飞桨论文复现few-shot
收藏
知乎大神发表的文章:Video-to-Video Synthesis 高清视频生成 论文解读
https://zhuanlan.zhihu.com/p/92498863
1、数据准备
vid2vid解决的问题是以源视频(如semantic map序列或者从人脸视频中提取的边缘序列)作为条件输入
生成目标视频(真实街景图像或者人脸)
公式不管了,其实从直观上理解,就是在生成第t帧视频时,只需要将下边三类信息送入网络即可:
1) 当前第t帧的条件输入 St
2) 前L帧的条件输入
3) 模型生成的前L帧图像
文章通过实验发现L一般取2就可以,L太小会损失时序信息,L太大会造成巨大的GPU开销且提升的效果也有限。
2 光流约束
视频中一般存在的着大量的信息冗余,对于相邻的两帧图像,在空间上大部分区域像素都是相同的,而只有少部分存在运动的区域的像素有较大的变化,光流(optical flow)是可以用来表示这些区域的变化大小和方向。
个人理解就,当前帧加光流约等于后继帧。
3 Generator网络结构
G1
G2
4 Discriminator和Loss
vid2vid与pix2pixHD使用的是相同的Discriminator,即PatchGAN的Discriminator
https://aistudio.baidu.com/aistudio/education/group/info/1340
0
收藏
请登录后评论
赞
期待复现!