
## 1. PP-StructureV2模型简介 PP-StructureV2在PP-StructureV1的基础上进一步改进,主要有以下3个方面升级: * **系统功能升级** :新增图像矫正和版面恢复模块,图像转word/pdf、关键信息抽取能力全覆盖! * **系统性能优化** : * 版面分析:发布轻量级版面分析模型,速度提升**11倍**,平均CPU耗时仅需**41ms**! * 表格识别:设计3大优化策略,预测耗时不变情况下,模型精度提升**6%**。 * 关键信息抽取:设计视觉无关模型结构,语义实体识别精度提升**2.8%**,关系抽取精度提升**9.1%**。 * **中文场景适配** :完成对版面分析与表格识别的中文场景适配,开源**开箱即用**的中文场景版面结构化模型! PP-StructureV2系统流程图如下所示,文档图像首先经过图像矫正模块,判断整图方向并完成转正,随后可以完成版面信息分析与关键信息抽取2类任务。版面分析任务中,图像首先经过版面分析模型,将图像划分为文本、表格、图像等不同区域,随后对这些区域分别进行识别,如,将表格区域送入表格识别模块进行结构化识别,将文本区域送入OCR引擎进行文字识别,最后使用版面恢复模块将其恢复为与原始图像布局一致的word或者pdf格式的文件;关键信息抽取任务中,首先使用OCR引擎提取文本内容,然后由语义实体识别模块获取图像中的语义实体,最后经关系抽取模块获取语义实体之间的对应关系,从而提取需要的关键信息。 <div align="center"> <img src="https://user-images.githubusercontent.com/14270174/185939247-57e53254-399c-46c4-a610-da4fa79232f5.png" width = "80%" /> </div> 从算法改进思路来看,对系统中的3个关键子模块,共进行了8个方面的改进。 * 版面分析 * PP-PicoDet: 轻量级版面分析模型 * FGD: 兼顾全局与局部特征的模型蒸馏算法 * 表格识别 * PP-LCNet: CPU友好型轻量级骨干网络 * CSP-PAN: 轻量级高低层特征融合模块 * SLAHead: 结构与位置信息对齐的特征解码模块 * 关键信息抽取 * VI-LayoutXLM: 视觉特征无关的多模态预训练模型结构 * TB-YX: 考虑阅读顺序的文本行排序逻辑 * UDML: 联合互学习知识蒸馏策略 最终,与PP-StructureV1相比: - 版面分析模型参数量减少95.6%,推理速度提升11倍,精度提升0.4%; - 表格识别预测耗时不变,模型精度提升6%,端到端TEDS提升2%; - 关键信息抽取模型速度提升2.8倍,语义实体识别模型精度提升2.8%;关系抽取模型精度提升9.1%。 更详细的优化细节可参考技术报告:https://arxiv.org/abs/2210.05391v2 。 更多关于PaddleOCR的内容,可以点击 https://github.com/PaddlePaddle/PaddleOCR 进行了解。