PaddleOCR文本识别模型训练过拟合问题
收藏
在使用PaddleOCR文本识别预训练模型训练数据集时,我们经常会遇到训练出来的模型过拟合问题
具体表现形式:用训练出来的模型识别自己的数据集/测试集精确度会非常高,但当随机从网络上找一张
普通图片来做识别时效果又很差,这是就说明你训练的模型过拟合了,即泛化不足。
可能的问题:
1.数据量太少。可参考官网给出的最低数据量。
2.数据字符训练不全,就算是对于最简单的训练,在能保证基本效果的情况下,也需要把常用到的字符都训练到,例如我训练的是英文模型,我就必须保证a-z 1-9之内的所有字符都有出现在我的数据集上,因为一旦缺少某个字符,最终训练出来的模型会过拟合到其他字符上,对这个字符的识别率为0,自然也就无法识别出来。
所以要做到泛化训练最基本的就是要保证每个字符都被训练到。
解决方法:我采用的解决方案就是把我的数据集与ICDAR2015官方数据集进行混合,因为ICDAR2015数据集的多样性,所以我训练出来的模型也是泛化模型,具备识别普通图片的功能。
2
收藏
请登录后评论
赞!
这个分享很给力啊
1
这是一篇非常有用的帖子