论文复现 视频分类 学习笔记
收藏
Learning Spatio-Temporal Features with 3D Residual Networks For Action Recognition
论文中实现细节:
训练,3D-ResNet用于视频分类任务,输入图像序列由112 [像素]×112 [像素]×3 [通道]×16 [帧]组成,从视频中的时间随机裁剪16帧,如果视频序列短于16帧,则通过迭代视频来调整视频剪辑。
为了增强训练效果,采用四角、中心裁切和水平翻转来增强图像。通过乘以{1,1/2^(1/4)、1/√2、1 /2^(3/ 4)和1/2}来考虑视频剪辑的比例。 此外,在小批量训练中随机选择进行10个次裁剪和多尺度大小。
在训练阶段,使用随机梯度下降(SGD)和交叉熵损失作为优化器和损失函数。 权值衰减和momentum动量分别设置为0.001和0.9。 学习率从0.003开始,如果验证损失连续10个周期达到饱和,则将更新学习率。
验证阶段,不进行预测时数据扩充。计算三种与视频相关的准确性:视频剪辑,top-1和top-5视频级别的准确性。前5位的准确率是通过排名预测来判断的。 如果前5个预测中有正确的类别,则将该预测计为正确答案。此外,使用非重叠的滑动窗口方法以3D-ResNet的方式输出概率,并按视频顺序进行累加。
0
收藏
请登录后评论
期待复现!
最近咋这么多笔记呀?老师要求的吗
赞!
期待复现