百度飞桨的论文复现课程( https://aistudio.baidu.com/aistudio/education/group/info/1340 )
是一次学术盛宴,很荣幸在这个时间能有机会参加这次学术活动。
课程的第二阶段要求对给出的两个主题9篇论文精心精读,并对其复现。
两个主题是GAN,视频分类。
给出的论文如下:
GAN
1.Large scale GAN training for high fidelity natural image synthesis
2.Few-shot Video-toVideo Synthesis
3.StarGAN v2: Diverse Image Synthesis for Multiple Domains
4.U-GAT-IT: Unsupervised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Translation
5.First Order Motion Model for Image Animation
视频分类:
1.ECO: Efficient Convolutional Network for Online Video Understandin
2.Temporal Pyramid Network for Action Recognition
3.3D ResNets for Action Recognition
4.Representation Flow for Action Recognition
我准备复现的论文是:《ECO:Efficient Convolutional Network for Online Video Understanding》
论文主要工作:
1. 从整个视频中抽取固定数量的帧来覆盖长期时间结构,以便理解视频。采样帧跨越整个视频,与视频的长度无关。
2. 用3D网络来学习帧间的关系,在整个视频中跟踪。网络经过端到端训练学习关系。
3. 网络直接提供视频级别的分数,不需要事后的特征聚合。
网络架构如图1所示。输入视频分成N个子部分:Si,i = 1,...,N,各部分具有相同大小,在每个子部分中,随机采样一帧。这些帧中每一帧都由单个2D卷积网络处理,产生编码帧外观特征表示。通过处理覆盖整个视频时间段帧确保捕获动作中最相关的部分随着时间的推移以及这些部分之间的关系。
随机采样帧的位置优于总是使用相同的位置,因为它在训练期间导致更多的多样性并且使网络适应动作实例化的变化。同时,网络必须在运行时只处理N个帧,这使得这种方法非常快。论文也采用了更聪明的分区策略,它们将子部分的内容考虑在内。
论文中共有两个网络模型:ECO Lite和ECO Full.
期待复现!
赞!