首页 PaddleOCR 帖子详情
paddleocr识别数据集中要加入真实标注数据吗?
收藏
快速回复
PaddleOCR 问答识别OCR 543 13
paddleocr识别数据集中要加入真实标注数据吗?
收藏
快速回复
PaddleOCR 问答识别OCR 543 13

最近做的字符串识别模型,用的字符串都是合成的,尺寸统一,训练测试精度都就很高,但是在用形式、背景差不多的单词小图片去识别,可能尺寸有点差异,识别结果很差,我的实际应用是要识别一些小的单词图片,是不是要加入一些真实的单词图片去训练,还是哪有问题,请各位指点迷津[抱拳]!

0
收藏
回复
全部评论(13)
时间顺序
DeepGeGe
#2 回复于2021-12

准确地说,应该尽量保证训练样本都贴近真实场景,不然训练出来的结果没有意义。或者说至少验证集要与实际情况一致。

0
回复
DeepGeGe
#3 回复于2021-12

如果用与实际情况不同的合成数据去训练,那么模型在训练集上找到的规律,自然不能泛化到测试集,实际效果很差也是可以预见的。

0
回复
P
P0Lvo
#4 回复于2021-12
准确地说,应该尽量保证训练样本都贴近真实场景,不然训练出来的结果没有意义。或者说至少验证集要与实际情况一致。

合成数据是根据真实场景合成的,背景色啥的都一样,是不是我合成的尺寸不能固定成一个尺寸?

0
回复
DeepGeGe
#5 回复于2021-12

【训练测试精度都就很高】这个在训练时候测试是在什么数据集上测试的呢?

0
回复
P
P0Lvo
#6 回复于2021-12
【训练测试精度都就很高】这个在训练时候测试是在什么数据集上测试的呢?

单独拿出来的合成数据集测试精度很高,用实际一个单词小图片识别效果很差

0
回复
DeepGeGe
#7 回复于2021-12
P0Lvo #6
单独拿出来的合成数据集测试精度很高,用实际一个单词小图片识别效果很差

训练时候要准备一个验证集,模型保存的是验证集上指标最好的模型。我觉得可以在验证集中使用真实的单词图片。

此外就是用百度的预训练模型,在此基础上微调。这样做应该不会差的。另外就是不能拿训练数据去做测试啊,在训练集上测试没意义。

0
回复
P
P0Lvo
#8 回复于2021-12
训练时候要准备一个验证集,模型保存的是验证集上指标最好的模型。我觉得可以在验证集中使用真实的单词图片。 此外就是用百度的预训练模型,在此基础上微调。这样做应该不会差的。另外就是不能拿训练数据去做测试啊,在训练集上测试没意义。
展开

真实数据不够做验证集,单独拿出来的合成数据测试集并没有参与训练

0
回复
Dream拒杰
#9 回复于2021-12

最有效的方式是尽可能多的使用真实数据集,合成数据集为辅。要不然训练出来的模型只会对合成的数据集识别效果较好,应该和尺寸没关系

0
回复
嘟嘟
#10 回复于2021-12

肯定要做真实数据集吧,不然训练的模型无法应用到真实场景。 

0
回复
AP-Kai
#11 回复于2021-12

适用于真实环境的模型才ok,数量实在不够的话可以在验证集加真实数据

0
回复
P
P0Lvo
#12 回复于2021-12
AP-Kai #11
适用于真实环境的模型才ok,数量实在不够的话可以在验证集加真实数据

ok

0
回复
P
P0Lvo
#13 回复于2021-12
嘟嘟 #10
肯定要做真实数据集吧,不然训练的模型无法应用到真实场景。 

感谢

0
回复
stivenssss
#14 回复于2021-12

需要的。一般用通用数据训练出一个基准模型,然后再用真实数据微调基准模型

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户