## 1. PP-OCRv3模型简介 PP-OCRv3在PP-OCRv2的基础上进一步升级。整体的框架图保持了与PP-OCRv2相同的pipeline,针对检测模型和识别模型进行了优化。其中,检测模块仍基于DB算法优化,而识别模块不再采用CRNN,换成了IJCAI 2022最新收录的文本识别算法SVTR,并对其进行产业适配。PP-OCRv3系统框图如下所示(粉色框中为PP-OCRv3新增策略): <div align="center"> <img src="https://raw.githubusercontent.com/PaddlePaddle/PaddleOCR/release/2.6/doc/ppocrv3_framework.png" width = "80%" /> </div> 从算法改进思路上看,分别针对检测和识别模型,进行了共9个方面的改进: - 检测模块: - LK-PAN:大感受野的PAN结构; - DML:教师模型互学习策略; - RSE-FPN:残差注意力机制的FPN结构; - 识别模块: - SVTR_LCNet:轻量级文本识别网络; - GTC:Attention指导CTC训练策略; - TextConAug:挖掘文字上下文信息的数据增广策略; - TextRotNet:自监督的预训练模型; - UDML:联合互学习策略; - UIM:无标注数据挖掘方案。 从效果上看,速度可比情况下,多种场景精度均有大幅提升: - 中文场景,相对于PP-OCRv2中文模型提升超5%; - 英文数字场景,相比于PP-OCRv2英文模型提升11%; - 多语言场景,优化80+语种识别效果,平均准确率提升超5%。 更详细的优化细节可参考技术报告:https://arxiv.org/abs/2206.03001 。 更多关于PaddleOCR的内容,可以点击 https://github.com/PaddlePaddle/PaddleOCR 进行了解。