OCR表格报错

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

JavaRoom 发布于2021-12

训练代码：

%cd ~/PaddleOCR/ppstructure/vqa
! python train_ser.py \
    --model_name_or_path "layoutxlm-base-uncased" \
    --ser_model_type "LayoutXLM" \
    --train_data_dir "/home/aistudio/vqa_ser_fr_data_lesson_demo/train" \
    --train_label_path "/home/aistudio/vqa_ser_fr_data_lesson_demo/fr_normalize_train.json" \
    --eval_data_dir "/home/aistudio/vqa_ser_fr_data_lesson_demo/image" \
    --eval_label_path "/home/aistudio/vqa_ser_fr_data_lesson_demo/fr_normalize_val.json" \
    --per_gpu_train_batch_size 8 \
    --per_gpu_eval_batch_size 8 \
    --num_train_epochs 200 \
    --eval_steps 10 \
    --output_dir "./output/ser/" \
    --learning_rate 5e-5 \
    --warmup_steps 50 \
    --evaluate_during_training \
    --num_workers 0 \
    --seed 2048

出错信息：

/home/aistudio/PaddleOCR/ppstructure/vqa
[2021/12/27 11:04:03] root INFO: -----------  Configuration Arguments -----------
[2021/12/27 11:04:03] root INFO: adam_epsilon: 1e-08
[2021/12/27 11:04:03] root INFO: det_model_dir: None
[2021/12/27 11:04:03] root INFO: eval_data_dir: /home/aistudio/vqa_ser_fr_data_lesson_demo/image
[2021/12/27 11:04:03] root INFO: eval_label_path: /home/aistudio/vqa_ser_fr_data_lesson_demo/fr_normalize_val.json
[2021/12/27 11:04:03] root INFO: eval_steps: 10
[2021/12/27 11:04:03] root INFO: evaluate_during_training: True
[2021/12/27 11:04:03] root INFO: infer_imgs: None
[2021/12/27 11:04:03] root INFO: label_map_path: ./labels/labels_ser.txt
[2021/12/27 11:04:03] root INFO: learning_rate: 5e-05
[2021/12/27 11:04:03] root INFO: max_grad_norm: 1.0
[2021/12/27 11:04:03] root INFO: max_seq_length: 512
[2021/12/27 11:04:03] root INFO: model_name_or_path: layoutxlm-base-uncased
[2021/12/27 11:04:03] root INFO: num_train_epochs: 200
[2021/12/27 11:04:03] root INFO: num_workers: 0
[2021/12/27 11:04:03] root INFO: ocr_json_path: None
[2021/12/27 11:04:03] root INFO: output_dir: ./output/ser/
[2021/12/27 11:04:03] root INFO: per_gpu_eval_batch_size: 8
[2021/12/27 11:04:03] root INFO: per_gpu_train_batch_size: 8
[2021/12/27 11:04:03] root INFO: re_model_name_or_path: None
[2021/12/27 11:04:03] root INFO: rec_model_dir: None
[2021/12/27 11:04:03] root INFO: resume: False
[2021/12/27 11:04:03] root INFO: seed: 2048
[2021/12/27 11:04:03] root INFO: ser_model_type: LayoutXLM
[2021/12/27 11:04:03] root INFO: train_data_dir: /home/aistudio/vqa_ser_fr_data_lesson_demo/train
[2021/12/27 11:04:03] root INFO: train_label_path: /home/aistudio/vqa_ser_fr_data_lesson_demo/fr_normalize_train.json
[2021/12/27 11:04:03] root INFO: warmup_steps: 50
[2021/12/27 11:04:03] root INFO: weight_decay: 0.0
[2021/12/27 11:04:03] root INFO: ------------------------------------------------
[2021-12-27 11:04:03,549] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/layoutxlm-base-uncased/sentencepiece.bpe.model
[2021-12-27 11:04:04,233] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/layoutxlm-base-uncased/model_state.pdparams
W1227 11:04:04.235257  1334 device_context.cc:447] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.0, Runtime API Version: 10.1
W1227 11:04:04.239698  1334 device_context.cc:465] device: 0, cuDNN Version: 7.6.
[2021/12/27 11:04:12] root INFO: train from scratch
[2021/12/27 11:04:13] root INFO: ***** Running training *****
[2021/12/27 11:04:13] root INFO:   Num examples = 149
[2021/12/27 11:04:13] root INFO:   Num Epochs = 200
[2021/12/27 11:04:13] root INFO:   Instantaneous batch size per GPU = 8
[2021/12/27 11:04:13] root INFO:   Total train batch size (w. parallel, distributed) = 8
[2021/12/27 11:04:13] root INFO:   Total optimization steps = 3800
[2021/12/27 11:04:15] root INFO: epoch: [0/200], iter: [0/19], global_step:1, train loss: 2.092508, lr: 0.000001, avg_reader_cost: 0.92266 sec, avg_batch_cost: 1.11456 sec, avg_samples: 8.00000, ips: 7.17773 images/sec
[2021/12/27 11:04:15] root INFO: epoch: [0/200], iter: [1/19], global_step:2, train loss: 2.099239, lr: 0.000002, avg_reader_cost: 0.08354 sec, avg_batch_cost: 0.19509 sec, avg_samples: 8.00000, ips: 41.00740 images/sec
[2021/12/27 11:04:16] root INFO: epoch: [0/200], iter: [2/19], global_step:3, train loss: 2.036481, lr: 0.000003, avg_reader_cost: 0.40735 sec, avg_batch_cost: 0.50079 sec, avg_samples: 8.00000, ips: 15.97489 images/sec
[2021/12/27 11:04:17] root INFO: epoch: [0/200], iter: [3/19], global_step:4, train loss: 2.076443, lr: 0.000004, avg_reader_cost: 0.35264 sec, avg_batch_cost: 0.44601 sec, avg_samples: 8.00000, ips: 17.93699 images/sec
[2021/12/27 11:04:18] root INFO: epoch: [0/200], iter: [4/19], global_step:5, train loss: 1.931501, lr: 0.000005, avg_reader_cost: 0.32242 sec, avg_batch_cost: 0.41965 sec, avg_samples: 8.00000, ips: 19.06366 images/sec
[2021/12/27 11:04:19] root INFO: epoch: [0/200], iter: [5/19], global_step:6, train loss: 1.946306, lr: 0.000006, avg_reader_cost: 0.31692 sec, avg_batch_cost: 0.40723 sec, avg_samples: 8.00000, ips: 19.64501 images/sec
[2021/12/27 11:04:19] root INFO: epoch: [0/200], iter: [6/19], global_step:7, train loss: 1.882764, lr: 0.000007, avg_reader_cost: 0.32894 sec, avg_batch_cost: 0.42032 sec, avg_samples: 8.00000, ips: 19.03315 images/sec
[2021/12/27 11:04:20] root INFO: epoch: [0/200], iter: [7/19], global_step:8, train loss: 1.863832, lr: 0.000008, avg_reader_cost: 0.32146 sec, avg_batch_cost: 0.41201 sec, avg_samples: 8.00000, ips: 19.41711 images/sec
[2021/12/27 11:04:21] root INFO: epoch: [0/200], iter: [8/19], global_step:9, train loss: 1.723690, lr: 0.000009, avg_reader_cost: 0.32775 sec, avg_batch_cost: 0.42309 sec, avg_samples: 8.00000, ips: 18.90841 images/sec
[2021/12/27 11:04:22] root INFO: epoch: [0/200], iter: [9/19], global_step:10, train loss: 1.654746, lr: 0.000010, avg_reader_cost: 0.32819 sec, avg_batch_cost: 0.42523 sec, avg_samples: 8.00000, ips: 18.81336 images/sec
Exception in thread Thread-2:
Traceback (most recent call last):
  File "/opt/conda/envs/python35-paddle120-env/lib/python3.7/threading.py", line 926, in _bootstrap_inner
    self.run()
  File "/opt/conda/envs/python35-paddle120-env/lib/python3.7/threading.py", line 870, in run
    self._target(*self._args, **self._kwargs)
  File "/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/dataloader/dataloader_iter.py", line 213, in _thread_loop
    self._thread_done_event)
  File "/opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/paddle/fluid/dataloader/fetcher.py", line 121, in fetch
    data.append(self.dataset[idx])
  File "/home/aistudio/PaddleOCR/ppstructure/vqa/xfun.py", line 432, in __getitem__
    data["image"] = self.load_img(image_path)
  File "/home/aistudio/PaddleOCR/ppstructure/vqa/xfun.py", line 410, in load_img
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
cv2.error: OpenCV(4.4.0) /tmp/pip-req-build-xgme2194/opencv/modules/imgproc/src/color.cpp:182: error: (-215:Assertion failed) !_src.empty() in function 'cvtColor'

全部评论(2)

JavaRoom

#2 回复于2021-12

路径设置错误。。。

JavaRoom

#3 回复于2021-12

具体处理办法：

找到出错位置，加try except，捕获异常原因。一下子清晰明了。

        try:
            img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
        except:
            print('image_path:',image_path)

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~