原帖已删除
Ta的回复 :6月初和朋友聊天的过程中,了解到他在他们公司的工作日常,工作内容是对甲方分发下来的pdf报表进行排查,因为没有好的方法,遂只能肉眼排查录入到excel,工作最后的交接成本也是处理好的excel,平均一个300页左右的pdf一个人要排查三天左右时间。当时听完突发奇想,计划帮朋友写一个小脚本,来自动化的完成这类机械性工作。 我是一名前端开发,这次的脚本选择了python,从没用过,但好在上手简单.. 一开始想了很多方案,犹豫是图片的pdf文件,没有办法粘贴复制,就只能pdf切成图片然后挨个识别图片再处理识别后的字串了。 百度ai的文字识别也是无意间在网上搜到的,(为了节省效率也是问了一下用过其他大厂ocr识别朋友答案都说是百度的比较好)。 然后就开始具体实现,逻辑不难,但处理要摘选的内容有些麻烦,刚开始选择的是精准文字识别,因为涉及到我要识别的内容没有太多规律,并且需要换行,所以研究了一阵子便放弃了,基本没法实现。 后来看文档无意看到了自定义模板识别,规定识别区域,训练模板,这样的方法刚好满足了我的需求。整个使用流程很顺畅,友好。 值得称赞的是识别率较高,中间也遇到过一些问题,这里偷偷给自定义模板群里的 【xiang yu bo - RD】 点个赞,解答问题很耐心... 而且随时都在 ! 脚本做完后的效果基本是可以15分钟一个文档,但还需要人工后期纠偏,测试了一下,朋友算上纠偏大概一个人能两小时一个pdf文件。效率提升.... 很多就是了 哈哈 作为一名刚成为coder的同学来讲,能体验到这样的优质技术,表示有些兴奋。 邮箱:zhaodonghao586@outlook.com