使用PaddleOCR进行文档识别时对手写体进行过滤报错

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

你是年少的欢喜发布于2022-09

基于使用PaddleOCR进行文档识别时对手写体进行过滤项目进行更换数据集，运行报错，第一张为原来的数据格式，第二张为自己更换的数据集

%cd ~/work/PaddleOCR/
!python tools/train.py -c configs/cls/cls_mv3.yml
IndexError: list index out of range

[2022/09/13 18:13:06] ppocr ERROR: When parsing line Mongolian/mongolian_000133_3.jpg 10
, error happened with msg: Traceback (most recent call last):
File "/home/aistudio/work/PaddleOCR/ppocr/data/simple_dataset.py", line 128, in __getitem__
label = substr[1]
IndexError: list index out of range

刚开始可以正常读取数据，运行过一次之后就开始报错，不知道是什么原因，好像是数据集的问题，飞桨数据集格式要求是什么？有没有官方的文件，谢谢大家

全部评论(6)

你是年少的欢喜

#2 回复于2022-09

报错界面

beyondyourself

#3 回复于2022-09

可以看看simpledata的要求的数据格式

你是年少的欢喜

#4 回复于2022-09

beyondyourself #3

可以看看simpledata的要求的数据格式

好的，我正在看。

走

走天涯住海角

#5 回复于2022-09

或者数据字典是否匹配，如果有不支持的字符也需要自己重新训练，使用自己的字典

你是年少的欢喜

#6 回复于2022-09

走天涯住海角 #5

或者数据字典是否匹配，如果有不支持的字符也需要自己重新训练，使用自己的字典

我把标签列表修改了，我再看看数据集方面。

霖

霖枫忆蓝

#7 回复于2024-04

请问这个问题最后怎么解决的啊我也出现了

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~