【视频分类论文心得】ECO网络
收藏
ECO: Efficient Convolutional Network for Online Video Understanding
论文精读总结
1、相关介绍
emporal Segment Network(TSN)网络结构
1.输入视频划分成K个片段,每个片段随机取一帧
2.两个卷积网络分别提取空间和时序特征(RGB图像和光流图像)通过片段共识函数,分别融合两个分支不同片段结果
3.两类共识再次融合
2、论文方法
1.预测的主要部分是在单帧图像中进行的,从而错过了跨越几秒钟的动作中的重要关系。
2.采用逐帧处理的方法,会导致整个视频的处理效率不高,无法满足快速视频检索和在线视频分类对速度的需求。
1. 相邻帧间的很多信息都是冗余的。ECO 将视频等分后,在一个时序邻域内仅使用单帧图像。ü
2. ECO对较远帧之间的feature map以3D卷积的方式进行end-2-end 的融合。
1. 通过2D卷积建模不同时刻帧与帧之间的关系,并采用平局池化生产特征。
2. 将3D-net和2D-nets特征连接,用于最后的视频分类。
论文实现目标:以较快的速度实现了较高的精度
结果如下:
总结:论文采用TSN网络结构对两个卷积网络分别提取空间和时序特征(RGB图像和光流图像)通过片段共识函数,分别融合两个分支不同片段结果,然后对两类共识再次融合,通过2D卷积建模不同时刻帧与帧之间的关系,并采用平局池化生产特征。将3D-net和2D-nets特征进行连接,用于最后的视频分类,最终实现了较高的识别精度,并缩短了运行时长。
石建国
0
收藏
请登录后评论
赞一个
期待复现!
赞!