paddleocr识别数据集中要加入真实标注数据吗?
收藏
最近做的字符串识别模型,用的字符串都是合成的,尺寸统一,训练测试精度都就很高,但是在用形式、背景差不多的单词小图片去识别,可能尺寸有点差异,识别结果很差,我的实际应用是要识别一些小的单词图片,是不是要加入一些真实的单词图片去训练,还是哪有问题,请各位指点迷津[抱拳]!
0
收藏
请登录后评论
准确地说,应该尽量保证训练样本都贴近真实场景,不然训练出来的结果没有意义。或者说至少验证集要与实际情况一致。
如果用与实际情况不同的合成数据去训练,那么模型在训练集上找到的规律,自然不能泛化到测试集,实际效果很差也是可以预见的。
合成数据是根据真实场景合成的,背景色啥的都一样,是不是我合成的尺寸不能固定成一个尺寸?
【训练测试精度都就很高】这个在训练时候测试是在什么数据集上测试的呢?
单独拿出来的合成数据集测试精度很高,用实际一个单词小图片识别效果很差
训练时候要准备一个验证集,模型保存的是验证集上指标最好的模型。我觉得可以在验证集中使用真实的单词图片。
此外就是用百度的预训练模型,在此基础上微调。这样做应该不会差的。另外就是不能拿训练数据去做测试啊,在训练集上测试没意义。
真实数据不够做验证集,单独拿出来的合成数据测试集并没有参与训练
最有效的方式是尽可能多的使用真实数据集,合成数据集为辅。要不然训练出来的模型只会对合成的数据集识别效果较好,应该和尺寸没关系
肯定要做真实数据集吧,不然训练的模型无法应用到真实场景。
适用于真实环境的模型才ok,数量实在不够的话可以在验证集加真实数据
ok
感谢
需要的。一般用通用数据训练出一个基准模型,然后再用真实数据微调基准模型