Paddle OCR 识别PDF时,将页面拆分进行OCR识别,造成文字排序混乱
收藏
对PDF进行逐页识别时,发现文字不连贯,经检查发现,单一PDF页面被分割为6张图片,逐张识别文字,最后造成文字乱序。
对胆码进行检测,应该是
img_list = page.get_images()
代码造成的,但是步入代码中未发现将整张图片分割的代码和规则,所以请教一下大家,这种情况应该如何处理?
抱拳!Orz
0
收藏
请登录后评论