使用PaddleOCR进行文档识别时对手写体进行过滤报错
收藏
基于使用PaddleOCR进行文档识别时对手写体进行过滤项目进行更换数据集,运行报错,第一张为原来的数据格式,第二张为自己更换的数据集
%cd ~/work/PaddleOCR/
!python tools/train.py -c configs/cls/cls_mv3.yml
IndexError: list index out of range
[2022/09/13 18:13:06] ppocr ERROR: When parsing line Mongolian/mongolian_000133_3.jpg 10
, error happened with msg: Traceback (most recent call last):
File "/home/aistudio/work/PaddleOCR/ppocr/data/simple_dataset.py", line 128, in __getitem__
label = substr[1]
IndexError: list index out of range
刚开始可以正常读取数据,运行过一次之后就开始报错,不知道是什么原因,好像是数据集的问题,飞桨数据集格式要求是什么?有没有官方的文件,谢谢大家
0
收藏
请登录后评论
报错界面
可以看看simpledata的要求的数据格式
好的,我正在看。
或者数据字典是否匹配,如果有不支持的字符也需要自己重新训练,使用自己的字典
我把标签列表修改了,我再看看数据集方面。
请问这个问题最后怎么解决的啊 我也出现了