论文复现视频分类学习笔记

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

LJY0031 发布于2020-08

Learning Spatio-Temporal Features with 3D Residual Networks For Action Recognition

论文中实现细节：

训练，3D-ResNet用于视频分类任务，输入图像序列由112 [像素]×112 [像素]×3 [通道]×16 [帧]组成，从视频中的时间随机裁剪16帧，如果视频序列短于16帧，则通过迭代视频来调整视频剪辑。

为了增强训练效果，采用四角、中心裁切和水平翻转来增强图像。通过乘以{1，1/2^(1/4)、1/√2、1 /2^(3/ 4)和1/2}来考虑视频剪辑的比例。此外，在小批量训练中随机选择进行10个次裁剪和多尺度大小。

在训练阶段，使用随机梯度下降（SGD）和交叉熵损失作为优化器和损失函数。权值衰减和momentum动量分别设置为0.001和0.9。学习率从0.003开始，如果验证损失连续10个周期达到饱和，则将更新学习率。

验证阶段，不进行预测时数据扩充。计算三种与视频相关的准确性：视频剪辑，top-1和top-5视频级别的准确性。前5位的准确率是通过排名预测来判断的。如果前5个预测中有正确的类别，则将该预测计为正确答案。此外，使用非重叠的滑动窗口方法以3D-ResNet的方式输出概率，并按视频顺序进行累加。

0

收藏

回复

全部评论(4)

AIStudio810258

#2 回复于2020-08

期待复现！

0

回复

thinc

#3 回复于2020-08

最近咋这么多笔记呀？老师要求的吗

0

回复

Mr.郑先生_

#4 回复于2020-08

赞！

0

回复

七年期限

#5 回复于2020-08

期待复现

0

回复