首页 PaddleOCR 帖子详情
使用PaddleOCR进行文档识别时对手写体进行过滤报错
收藏
快速回复
PaddleOCR 问答文本识别 906 6
使用PaddleOCR进行文档识别时对手写体进行过滤报错
收藏
快速回复
PaddleOCR 问答文本识别 906 6

基于使用PaddleOCR进行文档识别时对手写体进行过滤项目进行更换数据集,运行报错,第一张为原来的数据格式,第二张为自己更换的数据集

%cd ~/work/PaddleOCR/
!python tools/train.py -c configs/cls/cls_mv3.yml
IndexError: list index out of range

[2022/09/13 18:13:06] ppocr ERROR: When parsing line Mongolian/mongolian_000133_3.jpg 10
, error happened with msg: Traceback (most recent call last):
File "/home/aistudio/work/PaddleOCR/ppocr/data/simple_dataset.py", line 128, in __getitem__
label = substr[1]
IndexError: list index out of range

刚开始可以正常读取数据,运行过一次之后就开始报错,不知道是什么原因,好像是数据集的问题,飞桨数据集格式要求是什么?有没有官方的文件,谢谢大家

0
收藏
回复
全部评论(6)
时间顺序
你是年少的欢喜
#2 回复于2022-09

报错界面

0
回复
beyondyourself
#3 回复于2022-09

可以看看simpledata的要求的数据格式

0
回复
你是年少的欢喜
#4 回复于2022-09
可以看看simpledata的要求的数据格式

好的,我正在看。

0
回复
走天涯住海角
#5 回复于2022-09

或者数据字典是否匹配,如果有不支持的字符也需要自己重新训练,使用自己的字典

0
回复
你是年少的欢喜
#6 回复于2022-09
或者数据字典是否匹配,如果有不支持的字符也需要自己重新训练,使用自己的字典

我把标签列表修改了,我再看看数据集方面。

0
回复
霖枫忆蓝
#7 回复于2024-04

请问这个问题最后怎么解决的啊 我也出现了

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户