飞桨论文复现视频分类学习心得

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

jsdbzcm 发布于2020-08

题目：Temporal Pyramid Network for Action Recognition

动作识别的时间金字塔网络

视觉节奏表征动作的动态和时间尺度。对不同动作的视觉节奏进行建模有助于识别它们。以前的工作通常是通过对原始视频进行多速率采样并构造一个输入级帧金字塔来捕获视频的速度，这通常需要一个昂贵的多分支网络来处理。在这项工作中，我们提出了一个通用的时间金字塔网络（TPN），它可以灵活地以即插即用的方式集成到二维或三维骨干网络中。TPN的两个重要组成部分，即特征源和特征融合，构成了一个主干的特征层次结构，使其能够以不同的速度捕捉动作瞬间。在几个动作识别数据集上，TPN也显示出了与其他具有挑战性的基线相比的一致性改进。特别是，当配备TPN时，具有密集采样的3DResNet-50在动力学-400验证集上获得2%的增益。进一步的分析还表明，TPN在视觉节奏差异较大的动作类上取得了很大的改进，验证了TPN的有效性

虽然深度神经网络在提高视频动作识别的准确性方面取得了很大的进展，但在设计这些识别网络时，往往忽略了表征不同动作的一个重要方面——动作实例的视觉节奏。视觉节奏实际上描述了一个动作的速度，它倾向于在时间尺度上决定识别的有效持续时间。如图1底部所示，action类自然具有不同的视觉速度（例如，鼓掌和行走）。在某些情况下，区分不同动作类的关键是它们的视觉节奏，因为它们在视觉上可能有很高的相似性，比如走路、慢跑和跑步。此外，如图1顶部所示，当执行相同的动作时，由于年龄、情绪和精力水平等各种因素的影响，每个表演者都可能以自己的视觉节奏行动。e、年长的人往往比年轻人行动缓慢，体重较重的人也是如此。在动作实例的视觉节奏中精确地建模类内和类间的差异，可能会给动作识别带来显著的改进。

以前的尝试提取动作实例的动态视觉速度主要依赖于构造一个帧金字塔，其中每个金字塔级别以不同的时间速率对输入帧进行采样。例如，我们可以分别以16帧和2帧的间隔从一个视频实例的64帧中采样，构造一个由4帧和32帧组成的两级帧金字塔。然后，将每一级的帧送入不同的主干子网，并将其输出特征进一步组合在一起进行最终预测。中的主干网通过以不同速率采样帧作为输入，能够提取不同感受野的特征，并表示不同视觉速度下的输入动作实例。因此，这些主干子网共同聚集快节奏和慢节奏的时间信息，处理不同时间尺度上的动作实例。

以前的方法在动作识别方面取得了显著的改进，但是在输入帧级处理动作实例的动态视觉速度仍然需要大量的计算。在输入帧金字塔中预先定义速度，然后将帧送入多个网络分支，这是不可伸缩的，特别是当我们使用大量的采样率时。

另一方面，许多视频识别中常用的模型，如C3D和I3D，往往会叠加一系列时间卷积。在这些网络中，随着层深度的增加，其时间感受野也随之增加。因此，单个模型中不同深度的特征已经捕获了快节奏和慢节奏的信息。因此，我们建议建立一个时间金字塔网络（TPN）来在特征层上聚合各种视觉节奏的信息。通过利用网络内部形成的特征层次结构，所提出的TPN能够处理以单一速率馈送的输入帧。

作为一个辅助模块，TPN可以以即插即用的方式应用于各种现有的动作识别模型中，从而带来一致的改进。

在这项工作中，首先提供了一个通用的TPN公式，其中引入了几个组件来更好地捕捉多个可视的信息节奏。然后在三个基准上评估TPN：Dynamics-400、某物V1&V2和EpicKitchen，并进行全面的消融研究。没有任何的钟声和哨声，当与二维和三维网络结合时，tpn带来了一致的改进。除此之外，消融研究显示，TPN的改善主要来自于视觉速度有显著差异的动作类别。这一结果验证了假设，即在单个模型中聚合特征足以捕捉视频识别中动作实例的视觉速度。

本文提出了一个通用的时间金字塔网络模块来捕捉动作实例的视觉速度。我们的TPN作为一个功能级金字塔，可以以即插即用的方式应用于现有的2D/3D架构，带来一致的改进。经验分析揭示了TPN的有效性，支持我们的动机和设计。在未来的工作中，我们会将TPN扩展到其他视频理解任务中。

全部评论(1)

Mr.郑先生_

#2 回复于2020-08

赞！