首页 PaddleOCR 帖子详情
Paddle OCR 识别PDF时,将页面拆分进行OCR识别,造成文字排序混乱
收藏
快速回复
PaddleOCR 问答OCR文本识别 4516 0
Paddle OCR 识别PDF时,将页面拆分进行OCR识别,造成文字排序混乱
收藏
快速回复
PaddleOCR 问答OCR文本识别 4516 0

对PDF进行逐页识别时,发现文字不连贯,经检查发现,单一PDF页面被分割为6张图片,逐张识别文字,最后造成文字乱序。

对胆码进行检测,应该是

img_list = page.get_images()

代码造成的,但是步入代码中未发现将整张图片分割的代码和规则,所以请教一下大家,这种情况应该如何处理?

抱拳!Orz

0
收藏
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户