PaddleOCR文本识别模型训练过拟合问题

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

一_ 发布于2021-07

在使用PaddleOCR文本识别预训练模型训练数据集时，我们经常会遇到训练出来的模型过拟合问题

具体表现形式：用训练出来的模型识别自己的数据集/测试集精确度会非常高，但当随机从网络上找一张

普通图片来做识别时效果又很差，这是就说明你训练的模型过拟合了，即泛化不足。

可能的问题：

1.数据量太少。可参考官网给出的最低数据量。

2.数据字符训练不全，就算是对于最简单的训练，在能保证基本效果的情况下，也需要把常用到的字符都训练到，例如我训练的是英文模型，我就必须保证a-z 1-9之内的所有字符都有出现在我的数据集上，因为一旦缺少某个字符，最终训练出来的模型会过拟合到其他字符上，对这个字符的识别率为0，自然也就无法识别出来。

所以要做到泛化训练最基本的就是要保证每个字符都被训练到。

解决方法：我采用的解决方案就是把我的数据集与ICDAR2015官方数据集进行混合，因为ICDAR2015数据集的多样性，所以我训练出来的模型也是泛化模型，具备识别普通图片的功能。

全部评论(4)

TC.Long

#2 回复于2021-07

赞！

小姐姐都是我的

#3 回复于2021-07

这个分享很给力啊

一_

#4 回复于2021-07

skw1975

#5 回复于2021-11

这是一篇非常有用的帖子

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~