基于PP-OCRv4的文档场景检测识别_专业领域大模型_图像到文本

---license: Apache License 2.0 hardware_support:- Intel- NVIDIA tasks:- Domain-Specific Large Models- Image-to-Text---# 基于PP-OCRv4的文档场景检测识别## 1. 项目场景说明政府机构在数字化转型过程中，每天都会产生和接收大量的文档，包括公文、申请材料、报告等。这些文档通常以非结构化的形式存在，难以直接进行分析和利用。而PaddleOCR可以通过文字识别技术，将这些非结构化的数据转化为结构化的信息，从而方便政府机构进行数据治理和决策分析。当前政务文档在文字识别中的挑战主要有- 政务文档的来源多元化，有电子文档，扫描件，手机拍摄的文档，文档质量参差不齐。- 政务文档中的文字格式多种多样，包括手写、印刷、盖章内容等，需要进行多种文字识别技术的应用。- 政务文档中包含大量的专业术语，需要对这些术语进行识别和处理。- 政务文档的原始格式不规范，可能存在缺失、错位等问题，需要进行处理和修复。旻浦科技基于飞桨文字识别开发套件PaddleOCR提供了一套完整的政务文档处理方案，利用PaddleOCR高精度的识别能力，准确提取各种材料的核心信息，形成标准化的产品，助理政府政务治理，提升数字化服务能力，同时给广大民众带来便捷。点击右上角 `创建模型产线`，选择配置好的GPU、CPU环境，可以快速体验效果。## 2. 政务领域文档处理效果展示：<img src="https://ai-studio-static-online.cdn.bcebos.com/e053377b2f074793b662a09e30f0c07056bfc607f5314c5183e1a9792c1d5efe" style="height: 400px"><img src="https://ai-studio-static-online.cdn.bcebos.com/a7e4e70c3b2d435fa3e1190b653440625b63393d07a4424cbf5ec5de7b4cc2f9" style="height: 400px">## 3. 模型检测效果对比如下：| 场景方案 | 端到端精度（h-mean） || -------- | ------- || PP-OCR server| 57.07 || PP-OCR server finetune| 67.16 || PP-OCRv4 server| 67.26 ||PP-OCRv4 server finetune|70.63|可以看出，基于PP-OCRv4进行finetune后效果更好。## 4. 方案优势- 支持10405个字符的识别；支持特殊字符，如选中框□的识别；- 硬件算力要求低，部署兼容性高；- 模型精度高，体积小## 5. 数据说明本项目模型训练使用的数据集来自于自采的政务场景文档数据。示例图片如下：<img src="https://ai-studio-static-online.cdn.bcebos.com/3008126753014ffeb4cae2ed434d7e579fb9fe9bedac44538cc018892e9555d5" style="height: 400px"><img src="https://ai-studio-static-online.cdn.bcebos.com/053e0af855a54b0aa7371ab42826370faa2e5eaadd7f401f93f649ae8388b7cb" style="height: 400px">## 6. 企业介绍旻浦科技是由上海交通大学人工智能研究院孵化，以大数据智能驱动的国家高新技术企业、上海市人工智能领域重点支持企业。聚焦于大模型技术架构，实现感知、认知、推理决策的新一代数据与业务智能，为用户提供高价值场景服务。旻浦科技拥有软著、专利、高新技术成果转化和软件产品认证100余项，是数据治理国际标准（ ISO/IEC38505）、知识图谱国际标准（IEEE P2807）的制定成员单位之一。与上海交通大学人工智能研究院开展产学研用深度合作。旻浦科技深耕于政务、金融、产业三大领域，与国内外近百家知名企业和机构建立合作，实现数据融合化、模型动态化、流程自动化，积极推动政企数字化改革。