paddleocr识别数据集中要加入真实标注数据吗？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

P P0Lvo 发布于2021-12

最近做的字符串识别模型，用的字符串都是合成的，尺寸统一，训练测试精度都就很高，但是在用形式、背景差不多的单词小图片去识别，可能尺寸有点差异，识别结果很差，我的实际应用是要识别一些小的单词图片，是不是要加入一些真实的单词图片去训练，还是哪有问题，请各位指点迷津[抱拳]！

全部评论(13)

DeepGeGe

#2 回复于2021-12

准确地说，应该尽量保证训练样本都贴近真实场景，不然训练出来的结果没有意义。或者说至少验证集要与实际情况一致。

DeepGeGe

#3 回复于2021-12

如果用与实际情况不同的合成数据去训练，那么模型在训练集上找到的规律，自然不能泛化到测试集，实际效果很差也是可以预见的。

P0Lvo

#4 回复于2021-12

DeepGeGe #2

准确地说，应该尽量保证训练样本都贴近真实场景，不然训练出来的结果没有意义。或者说至少验证集要与实际情况一致。

合成数据是根据真实场景合成的，背景色啥的都一样，是不是我合成的尺寸不能固定成一个尺寸？

DeepGeGe

#5 回复于2021-12

【训练测试精度都就很高】这个在训练时候测试是在什么数据集上测试的呢？

P0Lvo

#6 回复于2021-12

DeepGeGe #5

【训练测试精度都就很高】这个在训练时候测试是在什么数据集上测试的呢？

单独拿出来的合成数据集测试精度很高，用实际一个单词小图片识别效果很差

DeepGeGe

#7 回复于2021-12

P0Lvo #6

单独拿出来的合成数据集测试精度很高，用实际一个单词小图片识别效果很差

训练时候要准备一个验证集，模型保存的是验证集上指标最好的模型。我觉得可以在验证集中使用真实的单词图片。

此外就是用百度的预训练模型，在此基础上微调。这样做应该不会差的。另外就是不能拿训练数据去做测试啊，在训练集上测试没意义。

P0Lvo

#8 回复于2021-12

DeepGeGe #7

训练时候要准备一个验证集，模型保存的是验证集上指标最好的模型。我觉得可以在验证集中使用真实的单词图片。此外就是用百度的预训练模型，在此基础上微调。这样做应该不会差的。另外就是不能拿训练数据去做测试啊，在训练集上测试没意义。

展开

真实数据不够做验证集，单独拿出来的合成数据测试集并没有参与训练

Dream拒杰

#9 回复于2021-12

最有效的方式是尽可能多的使用真实数据集，合成数据集为辅。要不然训练出来的模型只会对合成的数据集识别效果较好，应该和尺寸没关系

嘟嘟

#10 回复于2021-12

肯定要做真实数据集吧，不然训练的模型无法应用到真实场景。

AP-Kai

#11 回复于2021-12

适用于真实环境的模型才ok，数量实在不够的话可以在验证集加真实数据

P0Lvo

#12 回复于2021-12

AP-Kai #11

适用于真实环境的模型才ok，数量实在不够的话可以在验证集加真实数据

P0Lvo

#13 回复于2021-12

嘟嘟 #10

肯定要做真实数据集吧，不然训练的模型无法应用到真实场景。

感谢

stivenssss

#14 回复于2021-12

需要的。一般用通用数据训练出一个基准模型，然后再用真实数据微调基准模型

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~