中英文模型对相近字段处理的问题

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

l liduanwh21 发布于2024-05

不加参数lang时的结果

[2024/05/29 23:08:50] ppocr INFO: [[[799.0, 472.0], [940.0, 472.0], [940.0, 496.0], [799.0, 496.0]], ('Disc (D）or', 0.9582195281982422)]

[2024/05/29 23:08:50] ppocr INFO: [[[944.0, 474.0], [1001.0, 474.0], [1001.0, 493.0], [944.0, 493.0]], ('Paid', 0.9970977306365967)]

设置lang为en时变成了这样

('Disc (D）orPaid', 0.9362062215805054)

原图上这两个字段是表格的两个表头，隔的比较近，有竖线分隔，用中文模型反而是没问题，但是又会有些其他问题，比如有些符号比如括号、冒号等会呗识别成中文的括号，所以还是想用英文的模型，请问有没有什么解决办法

0

收藏

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~