Paddle OCR 识别PDF时，将页面拆分进行OCR识别，造成文字排序混乱

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

楛楛殇发布于2024-02

对PDF进行逐页识别时，发现文字不连贯，经检查发现，单一PDF页面被分割为6张图片，逐张识别文字，最后造成文字乱序。

对胆码进行检测，应该是

img_list = page.get_images()

代码造成的，但是步入代码中未发现将整张图片分割的代码和规则，所以请教一下大家，这种情况应该如何处理？

抱拳！Orz

0

收藏

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~