首页 Paddle框架 帖子详情
PaddleOCR文本识别模型训练过拟合问题
收藏
快速回复
Paddle框架 文章模型训练深度学习 1102 4
PaddleOCR文本识别模型训练过拟合问题
收藏
快速回复
Paddle框架 文章模型训练深度学习 1102 4

在使用PaddleOCR文本识别预训练模型训练数据集时,我们经常会遇到训练出来的模型过拟合问题

 

具体表现形式:用训练出来的模型识别自己的数据集/测试集精确度会非常高,但当随机从网络上找一张

普通图片来做识别时效果又很差,这是就说明你训练的模型过拟合了,即泛化不足。

可能的问题:

1.数据量太少。可参考官网给出的最低数据量。

2.数据字符训练不全,就算是对于最简单的训练,在能保证基本效果的情况下,也需要把常用到的字符都训练到,例如我训练的是英文模型,我就必须保证a-z 1-9之内的所有字符都有出现在我的数据集上,因为一旦缺少某个字符,最终训练出来的模型会过拟合到其他字符上,对这个字符的识别率为0,自然也就无法识别出来。

所以要做到泛化训练最基本的就是要保证每个字符都被训练到。

解决方法:我采用的解决方案就是把我的数据集与ICDAR2015官方数据集进行混合,因为ICDAR2015数据集的多样性,所以我训练出来的模型也是泛化模型,具备识别普通图片的功能。

 

2
收藏
回复
全部评论(4)
时间顺序
TC.Long
#2 回复于2021-07

赞!

0
回复
小姐姐都是我的
#3 回复于2021-07

这个分享很给力啊

0
回复
一_
#4 回复于2021-07

1

0
回复
s
skw1975
#5 回复于2021-11

这是一篇非常有用的帖子

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户