PaddleOCR 如何在预训练模型上添加识别新数据集而不影响之前的识别效果

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

千千雪紫菱发布于2022-01

PaddleOCR 如何在预训练模型上添加识别新数据集而不影响之前的识别效果

十进制到二进制

已解决

4# 回复于2022-01

两个思路：官方的模型都是用开源数据训练的，也给出训练的教程，你可以直接把A,B,C数据下载下来，和自己的数据混在一起，然后训练一个A,B,,C,D的模型。第二个就是训练一个简单的分类器，是否为ABC,如果不是就调用D模型进行识别，是就使用官方的模型。第一个训练起来麻烦，第二个推理写起来麻烦，。

展开

全部评论(7)

beyondyourself

#2 回复于2022-01

可以根据数据格式自定义自己的数据集，一般也不能说不影响之前的效果，关键是你要符合优化的数据场景

千

千雪紫菱

#3 回复于2022-01

beyondyourself #2

可以根据数据格式自定义自己的数据集，一般也不能说不影响之前的效果，关键是你要符合优化的数据场景

你好！感谢您的回复，我现在的问题是、比如官方的预训练模型对ABC识别特别好对，对D识别好好，我现在想加一些D的数据可以让模型对ABCD识别的效果都比较好，但是我现在加入D的数据训练，得到的模型就只能识别D了，不能识别ABC了

十进制到二进制

#4 回复于2022-01

千

千雪紫菱

#5 回复于2022-01

十进制到二进制 #4

展开

目前的想法也是这样的，不知道是否可以通过迁移学习实现呢

十进制到二进制

#6 回复于2022-01

我感觉应该不太行，但是我不是做这个方向的，等其他大佬来回答吧~

千

千雪紫菱

#7 回复于2022-01

十进制到二进制 #6

我感觉应该不太行，但是我不是做这个方向的，等其他大佬来回答吧~

好的谢啦！

千

千雪紫菱

#8 回复于2022-01

千雪紫菱 #7

好的谢啦！

a. 检测需要的数据相对较少，在PaddleOCR模型的基础上进行Fine-tune，一般需要500张可达到不错的效果。
b. 识别分英文和中文，一般英文场景需要几十万数据可达到不错的效果，中文则需要几百万甚至更多。

文档里写着可以PaddleOCR模型的基础上进行Fine-tune

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~