【视频分类论文心得】ECO网络

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

石建国发布于2020-08

ECO: Efficient Convolutional Network for Online Video Understanding
论文精读总结

1、相关介绍

emporal Segment Network（TSN）网络结构

1.输入视频划分成K个片段，每个片段随机取一帧

2.两个卷积网络分别提取空间和时序特征（RGB图像和光流图像）通过片段共识函数，分别融合两个分支不同片段结果

3.两类共识再次融合

2、论文方法

1.预测的主要部分是在单帧图像中进行的，从而错过了跨越几秒钟的动作中的重要关系。

2.采用逐帧处理的方法，会导致整个视频的处理效率不高，无法满足快速视频检索和在线视频分类对速度的需求。

1. 相邻帧间的很多信息都是冗余的。ECO 将视频等分后，在一个时序邻域内仅使用单帧图像。ü

2. ECO对较远帧之间的feature map以3D卷积的方式进行end-2-end 的融合。

1. 通过2D卷积建模不同时刻帧与帧之间的关系，并采用平局池化生产特征。

2. 将3D-net和2D-nets特征连接，用于最后的视频分类。

论文实现目标：以较快的速度实现了较高的精度

结果如下：

总结：论文采用TSN网络结构对两个卷积网络分别提取空间和时序特征（RGB图像和光流图像）通过片段共识函数，分别融合两个分支不同片段结果，然后对两类共识再次融合，通过2D卷积建模不同时刻帧与帧之间的关系，并采用平局池化生产特征。将3D-net和2D-nets特征进行连接，用于最后的视频分类，最终实现了较高的识别精度，并缩短了运行时长。

石建国

全部评论(3)

wangwei8638

#2 回复于2020-08

赞一个

AIStudio810258

#3 回复于2020-08

期待复现！

Mr.郑先生_

#4 回复于2020-08

赞！