【视频分类论文心得】ECO网络

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

t thrkingd 发布于2020-08

课程链接：https://aistudio.baidu.com/aistudio/education/group/info/1340

论文名称：ECO: Efficient Convolutional Network for Online Video Understanding

本文重点论述ECO的网络结构与现有网络结构的关联进行分析，部分个人观点不见得正确，仅供大家参考

一、问题描述

作者指出了目前最先进的视频分析算法存在两个问题：

1. 主要的推理建模工作集中在视频的局部帧当中，缺乏对视频全局关系的建模，这对那些持续时间较长的行为的识别非常重要；

2. 尽管存在一些对局部帧快速的处理方法，但是全视频处理的效率仍然较低，阻碍了类似快速视频检索、在线行为分类这类应用的发展。

为此作者提出了一种新型的端到端可训练的网络结构，能够以很高的效率对整个视频进行建模。主要特点在于网络内部就集成了长时全局时序建模，这样就避免了对时序特征建模的后处理；同时利用邻近帧间的信息冗余，设计了有效的采样策略。得益于这两点，作者的模型比其它最优模型速度提高了8—10倍。

二、相关工作

作者一共列举了4个相关工作：1.利用深度学习进行视频分类；2.长时视频特征表示的学习；3.由视频生成文字描述（video caption）；4.实时在线视频分析。重点提一下作者论述的与TSN网络的关系：

（1）在视频采样方式上与TSN相同，都是采用在全视频上的稀疏采样策略，这样就能使用固定的帧数（输入）来表征长度可变的视频，同时采样的帧能覆盖整个视频；

（2）在帧间时序建模方面，TSN只是用了简单的平均融合方式，而ECO采用了3D网络进行建模；

（3）网络的输出就直接是视频的分类得分，不需要任何的后处理，因而可以达到在线分析的速度（跟TSN也是一样的）。

三、ECO网络结构

1. ECO lite 和ECO full

作者一共设计了两个版本的ECO，lite版是轻量版，full版是完全版，总体结构见下图：

可以看出full版比lite版多出了一个并列的2D网络用于辅助分类。从图中可以看出2D-Nets的输出与3DNet的输出采用了连接（concatenate）的方式进行信息融合，最终再通过全连接层进行分类。

2. 具体模块的结构

（1）2D-Net

2D-Net就是一个普通的2维卷积，施加在每一帧采样帧上，这跟TSN的前半部分是完全一样的，作者采用了BN-inception的骨干网络，当然也可以换成其它的骨干网。

（2）3D-Net

3D卷积部分的输入是2D卷积的输出，作者选择了inception3c的输出，其特征维度是96×28×28，3D卷积部分采用了与resnet_18类似的结构，具体结构论文中有表格详述。

（3）2D-Nets

2D-Nets作者选择继续使用Inception-4a后面的卷积结构，然后通过全局平均池化将多个采用帧的输出进行融合。可以看出2D-Net+2D-Nets=TSN。也就是说ECO-full就是在TSN的基础上并联了一个3D卷积网络，并联的结构也基本保证了ECO-full的性能不会比TSN差

3 训练的细节

（1）数据采样与增广

作者采用了与TSN相同的数据处理方式：数据采样方面采用分段稀疏采样，段内随机采样。这种方式也可以看成是对时序信号的增广，这种变帧频的采样方式可以模拟真实行为的发生有快有慢的随机性。图像数据增广方面包括尺度扰动、边角裁剪、随机翻转等方式。

（2）参数初始化

2D网络和3D网络的参数都是从kinetics预训练模型中提取的，然后整个ECO网络再回到kinetics训练，训练完成后再应用到ucf101和hmdb51这种小数据上进行finetune。

（3）预测方式

很多以前的网络在预测时都要在视频中多次采样进行平均后再输出预测结果（否则难以达到最佳性能）。而作者设计的ECO网络预测时只需要跟训练时的方式相同，只是采样N帧图像送到网络中预测一次即可。

四、在线应用

以前的视频模型大都是要求数据源是结束了的完整视频，这样只适合于离线处理场景，而作者将ECO模型简单进行改动，就可以高效的应用在在线场景下。

在线的采样算法中需要维持2个N帧（假设ECO模型的输入是N帧图像）队列SN和QN其中S是工作队列，Q是缓冲队列，缓冲来自视频流的新帧。模型的输入来自于S队列。每当Q队列集满N帧图像后，就从S队列和Q队列中各自均匀采样N/2帧图像组成新的S队列，然后获得网络的输出预测P，将P与之前的历史预测值进行平均作为当前的最终预测输出。

五、试验结果

从作者在kinetics、something-something、ucf101、hmdb51等4个数据集上试验的结果来看，除了比I3D性能差一点外，优于其它模型，但是I3D的计算量太大了。值得注意的是作者在测试时是将{16,20,24,32}四种不同帧数量的ECO模型的输出进行平均，得到最终的输出。

六、结论与思考

作者的整个网络设计并不复杂，可以认为是在TSN基础上的改进，那么他为什么能够或得好的效果，作者有哪些设计思路和细节值得学习尼？个人认为有以下几点：

1. 尽量避免全新网络设计：在网络结构设计上，ECO-FULL的设计是典型的在现有网络基础上并联新网络的设计方法，这种方法通常能够保证新设计的网络不低于原基线网络的性能，有提高的空间；

2. 选择有大数据集上预训练参数的骨干网络：在图像分类领域尽量选择有在imagenet预训练的参数的模型，在视频分类领域尽量选择有在kinetics上预训练的参数的模型，避免从头训练，这对提高网络性能非常重要；

3. 2D+3D的网络结构：对于视频分类应用，帧间信息非常重要，2D+3D的结构在提取帧间信息上非常的有效，性能甚至也可以超过纯3D的网络，从后面的网络发展来看，都在向着这种混合网络结构发展，包括2D+1D的结构等。

全部评论(2)

AIStudio810258

#2 回复于2020-08

楼主总结得好细致，做了不少功课。我光是搞懂tsn的光流就用了几天。。。

期待复现！

该搬砖去了

#3 回复于2021-06

大佬你好，想请问你something-somethingv1数据集如何正确合并解压呢》你上传的三个文件我都下载了，但是解压遇到了问题，可不可以请你详细说一下如何操作，谢谢！