PaddleOCR 如何在预训练模型上添加识别新数据集而不影响之前的识别效果
可以根据数据格式自定义自己的数据集,一般也不能说不影响之前的效果,关键是你要符合优化的数据场景
你好!感谢您的回复,我现在的问题是、比如官方的预训练模型对ABC识别特别好对,对D识别好好,我现在想加一些D的数据可以让模型对ABCD识别的效果都比较好,但是我现在加入D的数据训练,得到的模型就只能识别D了,不能识别ABC了
两个思路:官方的模型都是用开源数据训练的,也给出训练的教程,你可以直接把A,B,C数据下载下来,和自己的数据混在一起,然后训练一个A,B,,C,D的模型。第二个就是训练一个简单的分类器,是否为ABC,如果不是就调用D模型进行识别,是就使用官方的模型。第一个训练起来麻烦,第二个推理写起来麻烦,。
目前的想法也是这样的,不知道是否可以通过迁移学习实现呢
我感觉应该不太行,但是我不是做这个方向的,等其他大佬来回答吧~
好的谢啦!
a. 检测需要的数据相对较少,在PaddleOCR模型的基础上进行Fine-tune,一般需要500张可达到不错的效果。b. 识别分英文和中文,一般英文场景需要几十万数据可达到不错的效果,中文则需要几百万甚至更多。
文档里写着可以PaddleOCR模型的基础上进行Fine-tune
可以根据数据格式自定义自己的数据集,一般也不能说不影响之前的效果,关键是你要符合优化的数据场景
你好!感谢您的回复,我现在的问题是、比如官方的预训练模型对ABC识别特别好对,对D识别好好,我现在想加一些D的数据可以让模型对ABCD识别的效果都比较好,但是我现在加入D的数据训练,得到的模型就只能识别D了,不能识别ABC了
两个思路:官方的模型都是用开源数据训练的,也给出训练的教程,你可以直接把A,B,C数据下载下来,和自己的数据混在一起,然后训练一个A,B,,C,D的模型。第二个就是训练一个简单的分类器,是否为ABC,如果不是就调用D模型进行识别,是就使用官方的模型。第一个训练起来麻烦,第二个推理写起来麻烦,。
目前的想法也是这样的,不知道是否可以通过迁移学习实现呢
我感觉应该不太行,但是我不是做这个方向的,等其他大佬来回答吧~
好的谢啦!
a. 检测需要的数据相对较少,在PaddleOCR模型的基础上进行Fine-tune,一般需要500张可达到不错的效果。
b. 识别分英文和中文,一般英文场景需要几十万数据可达到不错的效果,中文则需要几百万甚至更多。
文档里写着可以PaddleOCR模型的基础上进行Fine-tune