【论文复现】3DResNet
收藏
为了使用深度神经网络来提取视频中时间和空间维度上的信息,一种直接的思路就是将用于图像特征学习的二维卷积拓展为三维卷积(3D Convolution),同时在时间和空间维度上进行卷积操作。如此一来,由三维卷积操作构成的三维卷积神经网络可以在获取每一帧视觉特征的同时,也能表达相邻帧随时间推移的关联与变化,如下图所示。
然而这样的设计在实践中却存在一定的困难。首先,时间维度的引入使得整个神经网络的参数数量、运行时间和训练所需的GPU内存都将大幅增长;其次,随机初始化的三维卷积核需要大量精细标注的视频数据来进行训练。受困于以上两点,近些年关于三维卷积神经网络的发展十分缓慢,其中最著名的C3D 网络只有11层,模型大小却达到321MB,由于3DCNN在处理视频数据的良好表现,从而将3D卷积引入到ResNet网络中。将3D-ResNet在ActivityNet和Kinetics进行训练,发现在ActivityNet上出现了过拟合,而在大数据量的Kinetics上的表现优于C3D等网络。
训练的时候:优化算法为动量随机梯度下降法,学习率初始化为0.1,当验证集的准确率连续下降3次时学习率乘以0.1,动量为0.9,weight decay为0.001,batch size为256。测试的时候,视频被分成若干不重叠的16帧的视频段,结果为所有视频段的结果的平均。输入的16帧视频是从原视频中均匀采样得到的,使用了数据增强的方法。
0
收藏
请登录后评论
分析很深入呀
赞一个