
---license: Apache License 2.0 language:- Multilingual tasks:- Multimodal Models training_framework: PaddlePaddle inference_framework: FastDeploy model_lineage: finetune---<div align="center"><h1 align="center"></h1>[](https://github.com/PaddlePaddle/PaddleOCR)[](https://huggingface.co/PaddlePaddle/PaddleOCR-VL)[](https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL)[](https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo)[](https://modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo/summary)[](https://discord.gg/JPmZXDsEEK)[](https://x.com/PaddlePaddle)[](./LICENSE)**🔥 官方在线体验**: [百度星河社区](https://aistudio.baidu.com/application/detail/98365) | **📝 博客**: [技术报告](https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf)</div><div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/allmetric.png" width="800"/></div>## 简介**PaddleOCR-VL** PaddleOCR-VL: 是一款先进、高效的文档解析模型,专为文档中的元素识别设计。其核心组件为 PaddleOCR-VL-0.9B,这是一种紧凑而强大的视觉语言模型(VLM),它由 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型组成,能够实现精准的元素识别。该模型支持 109 种语言,并在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过在广泛使用的公开基准与内部基准上的全面评测,PaddleOCR-VL 在页级级文档解析与元素级识别均达到 SOTA 表现。它显著优于现有的基于Pipeline方案和文档解析多模态方案以及先进的通用多模态大模型,并具备更快的推理速度。这些优势使其非常适合在真实场景中落地部署。### **核心特性**1. **紧凑而强大的 VLM 架构:** 我们提出了一种新型的视觉语言模型(Vision-Language Model),专为资源高效的推理而设计,在文档元素解析识别方面表现卓越。通过将 NaViT 风格的动态高分辨率视觉编码器与轻量级的 ERNIE-4.5-0.3B 语言模型相结合,我们显著提升了模型的识别能力和解码效率。这种组合在保持高精度的同时,降低了计算需求,使其非常适合高效且实用的文档处理应用。2. **文档解析的 SOTA 性能:** PaddleOCR-VL 在页面级文档解析和元素级识别任务中均达到了SOTA的性能。它显著优于现有的基于多模型组合Pipeline的解决方案,并在文档解析任务中展现出相比于主流视觉-语言模型(VLMs)的极强的竞争力。此外,它在识别复杂文档元素(如文本、表格、公式和图表)方面表现出色,能够适应包括手写文本和历史文档在内的多种复杂内容类型。这使其具有极高的通用性,适用于多种文档类型和使用场景。3. **多语言支持:** PaddleOCR-VL 支持 109 种语言,涵盖主要的全球语言,包括但不限于中文、英文、日文、拉丁语和韩语,同时也支持使用不同文字体系和结构的语言,如俄语(西里尔字母)、阿拉伯语、印地语(天城文)以及泰语。这种广泛的语言覆盖极大地提升了我们的整个系统在多语言和全球化文档处理场景中的适用性。### **模型结构:** <div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/paddleocrvl.png" width="800"/></div>## 新闻* ```2025.10.16 ``` 🚀 我们发布了 [PaddleOCR-VL](https://github.com/PaddlePaddle/PaddleOCR), — 一个多语言文档解析模型,基于 0.9B 超紧凑视觉语言模型(Vision-Language Model),在性能上达到了 SOTA 水平。* ```2025.10.29 ``` 支持通过 `transformers` 库调用 PaddleOCR-VL 的核心模块 PaddleOCR-VL-0.9B。## 使用方法 ### 安装依赖安装 [PaddlePaddle](https://www.paddlepaddle.org.cn/install/quick) 和 [PaddleOCR](https://github.com/PaddlePaddle/PaddleOCR):```bashpython -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/python -m pip install -U "paddleocr[doc-parser]"```### 基础用法命令行(CLI)使用方法:```bashpaddleocr doc_parser -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png```Python接口使用方法:```pythonfrom paddleocr import PaddleOCRVLpipeline = PaddleOCRVL()output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png")for res in output: res.print() res.save_to_json(save_path="output") res.save_to_markdown(save_path="output")```### 通过优化推理服务器加速 VLM 推理1. 启动 VLM 推理服务器(默认端口为 `8080`): ```bash docker run \ --rm \ --gpus all \ --network host \ ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server # 你也可以使用 ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server 来运行 SGLang 服务器 ```2. 调用 PaddleOCR 的 CLI 或 Python API: ```bash paddleocr doc_parser \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png \ --vl_rec_backend vllm-server \ --vl_rec_server_url http://127.0.0.1:8080 ``` ```python from paddleocr import PaddleOCRVL pipeline = PaddleOCRVL(vl_rec_backend="vllm-server", vl_rec_server_url="http://127.0.0.1:8080") output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/pp_ocr_vl_demo.png") for res in output: res.print() res.save_to_json(save_path="output") res.save_to_markdown(save_path="output") ```**有关更多用法细节和参数说明,请参见[文档](https://www.paddleocr.ai/latest/version3.x/pipeline_usage/PaddleOCR-VL.html)。**## 使用 transformers 进行 PaddleOCR-VL-0.9B 推理目前,我们支持使用 `transformers` 库对 PaddleOCR-VL-0.9B 模型进行推理,该模型能够识别文本、公式、表格和图表元素。未来,我们计划支持使用 `transformers` 进行完整文档解析推理。下面是我们提供的一个简单脚本,用于通过 `transformers` 库对 PaddleOCR-VL-0.9B 模型进行推理。> 注意:目前我们建议优先使用官方方法进行推理,因为其速度更快,并支持页级文档解析。下方示例代码仅支持元素级别的识别。```pythonfrom PIL import Imageimport torchfrom transformers import AutoModelForCausalLM, AutoProcessorDEVICE = "cuda" if torch.cuda.is_available() else "cpu"CHOSEN_TASK = "ocr" # Options: 'ocr' | 'table' | 'chart' | 'formula'PROMPTS = { "ocr": "OCR:", "table": "Table Recognition:", "formula": "Formula Recognition:", "chart": "Chart Recognition:",}model_path = "PaddlePaddle/PaddleOCR-VL"image_path = "test.png"image = Image.open(image_path).convert("RGB")model = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True, torch_dtype=torch.bfloat16).to(DEVICE).eval()processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)messages = [ {"role": "user", "content": [ {"type": "image", "image": image}, {"type": "text", "text": PROMPTS[CHOSEN_TASK]}, ] }]inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt").to(DEVICE)outputs = model.generate(**inputs, max_new_tokens=1024)outputs = processor.batch_decode(outputs, skip_special_tokens=True)[0]print(outputs)```## 性能表现### 页面级别(Page-Level)的文档解析性能#### 1. OmniDocBench v1.5##### PaddleOCR-VL 在 OmniDocBench v1.5 上的整体指标,以及文本、公式、表格、阅读顺序子任务中均达到了 SOTA 性能<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/omni15.png" width="800"/></div>#### 2. OmniDocBench v1.0##### PaddleOCR-VL 在 OmniDocBench v1.0 的整体、文本、公式、表格以及阅读顺序等几乎所有评估指标上均达到了 SOTA 性能。<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/omni10.png" width="800"/></div>> **Notes:** 这些指标来自 [MinerU](https://github.com/opendatalab/MinerU), [OmniDocBench](https://github.com/opendatalab/OmniDocBench), 和我们自己的内部测评.### 页面元素级识别 #### 1. 文本(Text)**OmniDocBench-OCR-block 性能对比**PaddleOCR-VL 在处理多样化文档类型方面展现出强大而灵活的能力,使其在 OmniDocBench-OCR-block 的性能评估中成为领先方法。<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/omnibenchocr.png" width="800"/></div>**In-house-OCR 性能对比**我们自建的评测集评估了模型在多语言和多文本类型下的性能。我们的模型在所有评测文字体系中均表现出卓越的准确性,并取得了最低的编辑距离。<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/inhouseocr.png" width="800"/></div>#### 2. 表格(Table)**In-house-Table 性能对比**我们自建的评测集包含多种类型的表格图像,例如中文、英文、中英混合表格,以及具有不同特征的表格类型,如完整边框、部分边框、无边框、书籍/手册格式、列表、学术论文表格、合并单元格等,还包括低质量和带水印的样本。PaddleOCR-VL 在所有类别中均展现出卓越的性能。<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/inhousetable.png" width="600"/></div>#### 3. 公式(Formula)**In-house-Formula 性能对比**我们自建的评测集包含简单印刷、复杂印刷、摄像扫描以及手写公式等多种类型。PaddleOCR-VL 在所有类别中均取得了最佳性能。<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/inhouse-formula.png" width="500"/></div>#### 4. 图表(Chart)**In-house-Chart 性能对比**我们自建的评测集涵盖 11 种主要图表类型,包括柱线混合图、饼图、100% 堆叠柱状图、面积图、柱状图、气泡图、直方图、折线图、散点图、堆叠面积图和堆叠柱状图。PaddleOCR-VL 不仅优于专业 OCR VLM 模型,还超越了一些 72B 级别的多模态语言模型。<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/inhousechart.png" width="400"/></div>## 可视化### 端到端文档解析<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/overview1.jpg" width="600"/><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/overview2.jpg" width="600"/><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/overview3.jpg" width="600"/><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/overview4.jpg" width="600"/></div>### 文本<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/text_english_arabic.jpg" width="300"/><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/text_handwriting_02.jpg" width="300"/></div>### 表格<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/table_01.jpg" width="300"/><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/table_02.jpg" width="300"/></div>### 公式<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/formula_EN.jpg" width="300"/><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/formula_EN.jpg" width="300"/></div>### 图表<div align="center"><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/chart_01.jpg" width="300" style="display: inline-block;"/><img src="https://aistudio-llm-static-online.bj.bcebos.com/repo_readme_iimg/chart_02.jpg" width="300" style="display: inline-block;"/></div>## 致谢我们想感谢 [ERNIE](https://github.com/PaddlePaddle/ERNIE), [Keye](https://github.com/Kwai-Keye/Keye), [MinerU](https://github.com/opendatalab/MinerU), [OmniDocBench](https://github.com/opendatalab/OmniDocBench) 提供宝贵的代码,模型权重和测评基准. 我们也很感谢所有对这个项目做出贡献的人!## 引用如果您觉得 PaddleOCR-VL 对您很有帮助, 请给我们的Github仓库点赞,收藏和引用.```bibtex@misc{cui2025paddleocrvlboostingmultilingualdocument, title={PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model}, author={Cheng Cui and Ting Sun and Suyin Liang and Tingquan Gao and Zelun Zhang and Jiaxuan Liu and Xueqing Wang and Changda Zhou and Hongen Liu and Manhui Lin and Yue Zhang and Yubo Zhang and Handong Zheng and Jing Zhang and Jun Zhang and Yi Liu and Dianhai Yu and Yanjun Ma}, year={2025}, eprint={2510.14528}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.14528}, }```