## 1. PP-TSM模型简介 视频分类与图像分类相似,均属于识别任务,对于给定的输入视频,视频分类模型需要输出其预测的标签类别。如果标签都是行为类别,则该任务也常被称为行为识别。与图像分类不同的是,视频分类往往需要利用多帧图像之间的时序信息。PP-TSM是PaddleVideo自研的实用产业级视频分类模型,在实现前沿算法的基础上,考虑精度和速度的平衡,进行模型瘦身和精度优化,使其可能满足产业落地需求。 PP-TSM基于ResNet-50骨干网络进行优化,从数据增强、网络结构微调、训练策略、BN层优化、预训练模型选择、模型蒸馏等6个方面进行模型调优。在基本不增加计算量的前提下,使用中心采样评估方式,PP-TSM在Kinetics-400上精度较原论文实现提升3.95个点,达到76.16%,超过同等骨干网络下的3D模型,且推理速度快4.5倍! 更多关于PaddleVideo可以点击 https://github.com/PaddlePaddle/PaddleVideo 进行了解。