首页 PaddleOCR 帖子详情
新手求助,关于飞桨ocr
收藏
快速回复
PaddleOCR 问答OCR学习资料识别 840 6
新手求助,关于飞桨ocr
收藏
快速回复
PaddleOCR 问答OCR学习资料识别 840 6

小白问个问题哈,请问大家是如何区分ocr识别后的结果的,比如身份证ocr识别后,返回了身份证的信息,在一个list里面,有姓名,身份证号,地址等等,如何区分各个字符串的内容是什么,有没有相关的课程推荐下,我去学习学习

0
收藏
回复
全部评论(6)
时间顺序
走天涯住海角
#2 回复于2022-08

这个最好指定一个规则,然后去匹配,或者采用NLP提取也可以实现

0
回复
宏842259160
#3 回复于2022-08
这个最好指定一个规则,然后去匹配,或者采用NLP提取也可以实现

我现在用坐标匹配的 ,我看 ppstructure/vqa好像可以,不过不知道咋弄

0
回复
深渊上的坑
#4 回复于2022-08

几个方案,第一种就是上面讲到的,用规则。比如身份证信息长度是非常明确的,只要是多少位数字,就判定为身份证。姓名也很简单,一般……不会超过四个字吧?而地址明显字符长度就非常长了……

0
回复
深渊上的坑
#5 回复于2022-08

另一种方法还是上面同学说的,用NLP,比较专业的说法就是信息抽取,可以参考这个项目:基于PaddleNLP的快递单信息抽取-实体抽取 https://aistudio.baidu.com/aistudio/projectdetail/2463239

0
回复
深渊上的坑
#6 回复于2022-08

如果要额外标注的话,也可以考虑串一个检测模型,但是感觉实在是没有必要

0
回复
深渊上的坑
#7 回复于2022-08
如果要额外标注的话,也可以考虑串一个检测模型,但是感觉实在是没有必要

当然有些场景不一定,比如电表检测,电表上文字非常多,但是实际上业务要的只是两个:电表读数和编号,那如果这样的话,可以微调下OCR模型里面的检测模型,然后再用规则把要的内容区分开来:https://aistudio.baidu.com/aistudio/projectdetail/511591

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户