---license: Apache License 2.0 hardware_support:- Intel- NVIDIA tasks:- Domain-Specific Large Models- Image-to-Text---# PDF转word## 1. 任务简介版面恢复就是将输入的图片、pdf内容仍然像原文档那样排列着,段落不变、顺序不变的输出到word文档中等。输入可为标准PDF或图片格式PDF,PDF转word工具结合版面分析、表格识别技术,从而更好地恢复图片、表格、标题等内容,支持中、英文pdf文档、文档图片格式的输入文件。下图展示了通过OCR技术,英文文档和中文文档版面恢复的效果:<img src="https://ai-studio-static-online.cdn.bcebos.com/7dab4e86333946958a792a5828b8b5b31621d2f5326b4ce2bd47228ab5bbddea" style="height: 400px"><img src="https://ai-studio-static-online.cdn.bcebos.com/c38f541035ee4d46b0cafe3785f62962f8a0a0712dcb4d8fb3970a2b10cfa9c7" style="height: 400px">## 2. 模型选择和训练通过版面分析对图片/pdf形式的文档进行区域划分,定位其中的关键区域,如文字、表格、图片等,记录每个区域的位置、类别、区域像素值信息。对不同的区域分别处理,其中:文字区域直接进行OCR检测和识别,在之前信息基础上增加OCR检测框坐标和文本内容信息;表格区域进行表格识别,记录表格html和文字信息;图片直接保存。详细的技术实现可参考阅读:[版面恢复](https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.6/ppstructure/recovery/README_ch.md)针对上面每一个模块,我们选取以下模型进行完成:PP-OCRv4中英文超轻量文本检测和识别模型、表格识别模型、版面分析模型。当提供的通用模型无法满足特定场景时,推荐基于自有数据进行模型训练:| 算法 | 模型 | 精度 | GPU推理耗时(ms) | CPU推理耗时(ms) | 模型存储大小(M) | 启动训练 | | -------- | -------- | -------- | -------- |-------- | -------- |-------- ||版面分析|picodet_layout_1x|86.80|4.99|76.41|9.7|[版面分析](https://aistudio.baidu.com/aistudio/modelsdetail?modelId=283)||文本检测|ch_PP-OCRv4_det|77.79/82.69|3.63/77.74|-/2244.96|4.7/111|[mobile](https://aistudio.baidu.com/aistudio/modelsdetail?modelId=272)/[server](https://aistudio.baidu.com/aistudio/modelsdetail?modelId=282)||文本识别|ch_PP-OCRv4_rec|78.20/79.20|1.46/6.55|-/134.59|11/89|[mobile](https://aistudio.baidu.com/aistudio/modelsdetail?modelId=281)/[server](https://aistudio.baidu.com/aistudio/modelsdetail?modelId=270)||表格识别|SLANet|76.31|868.23|395.39|9.3|[SLANet](https://aistudio.baidu.com/aistudio/modelsdetail?modelId=277)|**注:GPU 推理耗时基于 NVIDIA Tesla T4 机器,精度类型为 FP32, Intel(R) Xeon(R) Gold 5117 CPU @ 2.00GHz,线程数为10,精度类型为 FP32。****注:版面分析评估集为CDLA中文文档版面分析数据集; 文本检测和文本识别评估集是PaddleOCR自建的中文数据集,覆盖街景、网图、文档、手写多个场景,其中文本识别包含1.1w张图片,检测包含500张图片; 表格识别评估集是PubtabNet英文表格识别数据集。**## 3. 模型部署本模型目前的部署支持情况如下:| 操作系统 | Windows | Windows | Windows | Windows | Linux | Linux | Linux | Linux || -------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- | -------- || 部署硬件 | NV GPU | NV GPU | X86 CPU | X86 CPU | NV GPU | NV GPU | X86 CPU | X86 CPU || 接口语言 | C++ | Python | C++ | Python | C++ | Python | C++ | Python || 支持情况 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |根据实际业务需求选择所需要的操作系统、部署硬件、接口语言等条件后,获取 FastDeploy 部署包,**完成之后到开发者模式下进行下载(文件右击选择下载即可)**,其中包括部署代码和预测模型。最后就可以参考部署包里面的 README 使用说明,在目标硬件上进行部署啦。**注意:如果需要手动更新预测模型,可以直接修改部署包中的预测模型。**