[论文复现]TPN 论文心得

首页版块访问AI主站注册发帖

[论文复现]TPN 论文心得

发布于2020-08 浏览:8939 回复:2

[论文复现]TPN 论文心得

快速回复

一、引入了一个视觉速率“visual tempo”的概念。：

visual tempo：做动作的节奏/速率。如下图

intra class：在同一类型，不同样本中速率不同。
inter class：不同类型类型样本的速率不同。
不同行为，tempo的变化程度不同：所有的剪羊毛样本都差不多速率，不同的“后空翻”速率差别很大。

二、TPN模块提出初衷：

这只是一个Feature层面的SLow Fast的工作，注意是“一个”（下面解释为什么），这样的化输入的frame rate就是固定的了，比如8frame或者16frame这样的。

为什么要强调一个呢？

首先：以前用于提取 visual tempo 的方法主要是通过不同帧率获取原始帧，构建 input-level frame pyramid。

基本流程就如SlowFast，不同速率的样本通过不同的backbone处理，然后做特征融合，最后用于行为识别。
这种方法对算力不友好，并且事先去定义不同的tempo也是不显示的（M个动作就有n种tempo(节奏),那动不动几百种的动作类别的难道我们要去定义M*N的分支吗？这显然是不现实的）。
希望能有 feature-level的特征提取方法（感觉有点类似于检测里的FPN），既能提取visual tempo，又能节约性能。
常见的C3D这样的方法经常堆叠一些列的时序卷积，这样子随着网络层数的增加，时序感受野也随之增大，作为结果呢，单一model中不同深度的feature就已经有了一定的fast-tempo或者slow-tempo了，那如此来说在去multi-branches是不是就显得有点多余

三、TPN网络结构梳理

提出了一个即插即用的模块 Temporal Pyramid Network

灵感来源：同一模型不同深度的网络都已经提取了不同tempo的特征。详细点说，由于视频数据的特征图一般尺寸为 BATCH_SIZE, T, C, H, W，那么不同的T就代表了不同的帧率。
Collection of Hierarchical Features
方法一：没有FPN，获取一个特征图，以特征图中的T通道作为基础，按照不同“帧率”选择BATCH_SIZE, C, H, W特征图。与下图展示不同。
方法二：有FPN，根据不同层特征图拥有不同的通道T，作为不同帧率作为后续输入。
Spatial Semantic Modulation：大概意思是，从backbone获取的不同深度的空间语义特征不一致（猜测就是C, T, H, W尺寸不一致，具体要看源码），通过卷积操作设置为相同尺寸。如下图中，这一层的结果的尺寸完全相同。
Temporal Rate Modulation：就是获取不同帧率的特征图。这一步应该就是所谓的。
Information Flow：特征融合
四、正文部分

首先映入我眼帘的依据就是第一句：
The visual tempo of an action instance is one of the key factors for recognizing it, especially when other factors are ambiguous.
没错，作者的意思是visual tempo可以区分那些模棱两可动作(？由于视频通常采用隔帧采样进行特征提取，所以不同间隔采样，对不同速度的动作语义特征的提取尤为关键，比如走路，慢跑以及跑步这样的非常像的)的重要因素

接着，作者说之前的对visual tempo进行获取的方案主要就是利用frame pyramid进行的，具体而言就是输入的frame rate是pre-defined的，并且每种不同的rate对应一个特殊的network来处理，最典型的例子就是SlowFast了，这样的弊端就是需要极大的运算量，尤其当frame rate不止一种的时候。

所以这篇TPN就出现了，如图，

可以看出来整个结构就是这五个框，核心就是中间的三个框，然后为了解决Slow-Fast那种input frame multi-rate的问题，这里是利用不同的feature map进行的。这样整个网络的输入就还是一个frame rate的。然后取不同深度的feature map，也就是第一个框Bacbone中的主要工作。

1. Backbone：

看作是特征提取器把，就是对不同层的特征进行提取，一般有两种：
(1)第一种本文称之为single-depth pyramid，这种就是对特定层的feature map进行temporal dimension上的分级划分，比如有100个channel, 那么就10， 20， 30， 40这样划分出四组，那这个single depth的金字塔就有四层。这样做的缺陷就是，无论你怎么划分金字塔，你dev知识来自于一个层的feature map，并没有什么有冲击性的东西，就好比你选了100个50岁的人，无论你怎么进行组合，划分，都改变不了他们都是50岁的人的事实，大家能提供的信息也基本上就在50岁上下，所以作者又提供了第二种思路。
(2)Multi-depth pyramid:这个就和上面不一样了，在不同的深度选取feature map，然后把这些特征融合在一起（注意由于来源不一样，所以融合的是偶得格外小心，比如通道数啊，特征图大小啊什么的，总之就是得求同存异吧），这样这个新构造出来的feature map就更加有料了！再举个例子，比如还是选拔了100个人，其中10个20岁的，20个30岁的，30个50岁的，40个80岁的，这下好了，你把这么100个人放在一起，那20岁的也可以了解到80岁的一些东西，80岁的老头也能知道20岁的世界最近流行什么歌曲了。当然第二种的还需要强调的就是feature fusion,原文的最后一句也强调了要careful treatment!

2.Spatial Semantic Modulation:

也就是框架中的第二个框框，作用就是上面提到的要把这些来自不同depth的feature map进行spatial domin上的对其，或者说整合，毕竟大家都有差异，那么如何让其和平共处就显得格外重要了。这里自己有些疑惑，原文说这里空间对齐的部分是通过两个互补的方式来进行的
(1)对于除过最高一层的feature,其他层的feature map都将被施加level-specific stride的一系列卷积操作，使得其他的feature map在spatial shap以及感受野上都于最高一层保持一致，问题是这个感受野怎么一致呢？深度都不一样，感受野怎么保持一致？
(2)此外呢，还有个叫做 'auxiliary classification head’的东西被施加到这些feature map上，用来实现更强的监督，从而达到增强语言的目的，然后下面列个个Loss function，这个还没思考明白。

3. Temporal Rate Modulation

上面的spatial上的操作在空间大小是是把来自于各个深度的feature map给对其了，整合在一起了，但是在时序上还没有得到标定。所以在temporal Rate Modulation这个模块，也就是框架图中第三个框框里面，对时序rate进行整合。
原文说之前的SlowFast这样的方法因为输入的是不同rate的frame，所以控制起来非常灵活，但是本文的话是针对不同深度的feature 进行的，所以显得有些笨拙，因此为了让这个来自于feature map的方法在时序rate上也能显得灵活一些，就引入了超参数来进行调节，我这个举个例子，比如一共用到了4层的feature，a1就是对第一层的featurezai 在经过了Spatial Semantic Modulation之后需要进行temporal sampling的参数，相应的a4就是对取的第四层feature 在经过了空间对其后的时序采样参数，这样四层的feature就又可以放在一起了！

这一部分其说说白了就是temporal 维度的sampling了吧，明天看看代码到底是不是这样的。最后就得到了四组先后经过了spatial 以及temporal整合后的feature了。

4. Information Flow of TPN

这一部就到了用上面得到的feature，前面的步骤可以说是如何进行数据的获取，后面的步骤就是怎么用！
两个basic的down/up-sampling operation
（注意这里都是仅在temporal dimension进行的！）
（1）Top-down

（2）Bottom-up

然后通过这两个basic的操作又可以构成两个复杂一点的
(1) Cascade:先top-down后bottom-up

(2) Parrallel:把两个基础的操作同时使用

5.Final Prediction

这个就是对各个level整合信息后的（包括了空间时间的两个Modulation以及information flow)feature 的rescale和拼接。

6. Implementation

（1）3D的TPN是在SlowFast工作上进行的；
（2）2D的TPN实在2D ResNet上进行的；
其中呢，主要在利用res2, res3, res4以及res5四个stage output出来的feature map来进行TPN的构建，且上述相应的地方都对feature map在spatial上进行了4，8，16以及32倍的下采样

五、总结

TPN时间金字塔网络的概述，大概就是时间维度不变的3d resnet，再对不同层的输出进行空间维度对齐，再对这些对齐后的特征采用不同帧采样(因为不同层输出的时间维度不变)，再进行对这些特征的融合后进行分类；具体和slowfast的概念相似，slowfast只有两个网络对应不同帧频，而TPN想要在不增加网络(计算量)的情况下融合更多的帧频的特征，但是TPN融合的一个模型各个层不同帧频的特征

视频内容分析

个赞

共2条回复最后由用户已被禁言回复于2022-03

#3adjklld回复于2020-08

您好，可以分享代码吗

#2wangwei8638回复于2020-08

支持

快速回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服