首页 PaddleOCR 帖子详情
PaddleOCR 如何在预训练模型上添加识别新数据集而不影响之前的识别效果 已解决
收藏
快速回复
PaddleOCR 问答OCR 3428 7
PaddleOCR 如何在预训练模型上添加识别新数据集而不影响之前的识别效果 已解决
收藏
快速回复
PaddleOCR 问答OCR 3428 7

PaddleOCR 如何在预训练模型上添加识别新数据集而不影响之前的识别效果

4# 回复于2022-01
两个思路:官方的模型都是用开源数据训练的,也给出训练的教程,你可以直接把A,B,C数据下载下来,和自己的数据混在一起,然后训练一个A,B,,C,D的模型。第二个就是训练一个简单的分类器,是否为ABC,如果不是就调用D模型进行识别,是就使用官方的模型。第一个训练起来麻烦,第二个推理写起来麻烦,。
展开
0
收藏
回复
全部评论(7)
时间顺序
beyondyourself
#2 回复于2022-01

可以根据数据格式自定义自己的数据集,一般也不能说不影响之前的效果,关键是你要符合优化的数据场景

0
回复
千雪紫菱
#3 回复于2022-01
可以根据数据格式自定义自己的数据集,一般也不能说不影响之前的效果,关键是你要符合优化的数据场景

你好!感谢您的回复,我现在的问题是、比如官方的预训练模型对ABC识别特别好对,对D识别好好,我现在想加一些D的数据可以让模型对ABCD识别的效果都比较好,但是我现在加入D的数据训练,得到的模型就只能识别D了,不能识别ABC了

0
回复
十进制到二进制
#4 回复于2022-01

两个思路:官方的模型都是用开源数据训练的,也给出训练的教程,你可以直接把A,B,C数据下载下来,和自己的数据混在一起,然后训练一个A,B,,C,D的模型。第二个就是训练一个简单的分类器,是否为ABC,如果不是就调用D模型进行识别,是就使用官方的模型。第一个训练起来麻烦,第二个推理写起来麻烦,。

0
回复
千雪紫菱
#5 回复于2022-01
两个思路:官方的模型都是用开源数据训练的,也给出训练的教程,你可以直接把A,B,C数据下载下来,和自己的数据混在一起,然后训练一个A,B,,C,D的模型。第二个就是训练一个简单的分类器,是否为ABC,如果不是就调用D模型进行识别,是就使用官方的模型。第一个训练起来麻烦,第二个推理写起来麻烦,。
展开

目前的想法也是这样的,不知道是否可以通过迁移学习实现呢

0
回复
十进制到二进制
#6 回复于2022-01

我感觉应该不太行,但是我不是做这个方向的,等其他大佬来回答吧~

0
回复
千雪紫菱
#7 回复于2022-01
我感觉应该不太行,但是我不是做这个方向的,等其他大佬来回答吧~

好的谢啦!

0
回复
千雪紫菱
#8 回复于2022-01
好的谢啦!

a. 检测需要的数据相对较少,在PaddleOCR模型的基础上进行Fine-tune,一般需要500张可达到不错的效果。
b. 识别分英文和中文,一般英文场景需要几十万数据可达到不错的效果,中文则需要几百万甚至更多。

文档里写着可以PaddleOCR模型的基础上进行Fine-tune

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户