深度剖析百度 PaddleOCR-VL 0.9B 的文档解析方案：两阶段架构、统一建模与开源实践

2026/6/29 19:34:31

一个0.9B 参数的小模型，在文档解析的权威评测 OmniDocBench 里拿了总分第一，92.86 分。第二名 MinerU2.5 是 90.67，差的不是很多。但你再往下看，GPT-4o 只有 75.02，Qwen2.5-VL-72B 只有 87.02，Gemini 2.5 Pro 也只有 88.03。

0.9B 对 72B。参数差了 80 倍，分数反超了将近 6 分。

这个数据大部分人看到的第一反应是，OCR 这东西不是早就解决了吗，微信扫一扫都能把图片转文字，有什么好卷的。

说实话，我以前也是这么想的。直到去年我自己搭 RAG 系统的时候，被 PDF 文档解析折磨了整整两周。

你有一份三栏排版的学术论文，里面有表格，有公式，有图表，你把它丢给一个普通的 OCR 工具。结果呢，文字倒是读出来了，但公式变成了乱码，表格的列全串了，图表干脆被识别成了「图片」，阅读顺序更是乱七八糟，第一段读到一半直接跳到第三栏去了。

你心想，那我换个 GPT-4o 试试。结果它确实能读出来一些东西，但公式还是错的，表格结构还是烂的，而且跑一次要等好几秒，一份 50 页的 PDF 跑下来，喝杯咖啡回来还没跑完。

这时候你才意识到，OCR 和文档解析，根本是两件事。

OCR 只负责认字，它不认识表格的结构，不知道公式的上下标关系，看不懂图表的纵轴和横轴。它就像一个只会认字的小学生，你给他一篇论文，他能把每个字都念出来，但完全不知道这篇论文在说什么。

而文档解析要做的，是看懂整篇文档的结构。哪段是正文，哪块是表格，哪个是公式，哪个是图表，这些东西的阅读顺序是什么，最后把它们全部转成结构化的格式，比如 Markdown。

这个差距，在过去这一年突然变得特别重要。因为 RAG 系统爆发了，每个人都在给自己的 AI 接文档，但很少有人意识到，文档解析的质量直接决定了 AI 回答的靠谱程度。你喂给 AI 的是一堆乱码，它吐出来的答案能对吗。

但问题不止于此。就算你理解了文档解析比 OCR 难，你大概率还是会觉得，这种复杂任务，肯定是大模型更擅长吧。

回到开头说的那篇论文，来自百度的PaddleOCR-VL。它在 OmniDocBench v1.5 上拿了第一 92.86 分，好几个子项的表现也很好。

先说文字识别。编辑距离只有 0.035，几乎是零错误。这个数字什么概念呢，第二名的 MinerU2.5 是 0.047，GPT-4o 是 0.217。编辑距离越低越好，0.035，也就是每 1000 个字符里只错 35 个，而且大部分可能还是标点符号这种级别的。

公式识别就更夸张了。公式CDM 分数91.22，比第二名 MinerU2.5 的 88.46 高出将近 3 分。你别看 3 分好像不多，在公式识别这个子任务上，上一代最好的模型 MonkeyOCR-pro-3B 才 87.25，Qwen2.5-VL-72B 是 88.27。PaddleOCR-VL 直接把天花板往上推了一截。

表格结构还原也是断层级的。表格TEDS 分数90.89，比 MinerU2.5 的 88.22 高了 2 分多。表格 TEDS-S 达到了 94.76，这个指标衡量的是表格结构还原的精度，包括单元格合并、行列对齐这些。以前做表格识别最怕的就是合并单元格，一合并就乱，PaddleOCR-VL 在这个指标上的表现是断层式的。

而且它不是只赢了这几个指标。阅读顺序编辑距离 0.043，和最好的水平持平。英文表格 TEDS 在 OmniDocBench v1.0 上略低一些，88.0，但论文里解释了这个差距主要是标注错误导致的，中文表格 TEDS 是 92.14，几乎是碾压级的。

但更有意思的是，它不是只赢了大模型，它还赢了所有专用模型。

说真的，我一开始看到 0.9B 拿第一的时候，脑子里想的是，是不是只在 OmniDocBench 这一个评测上运气好。毕竟单榜第一这种事，有时候换个评测集就现原形了。

结果它在olmOCR-Bench上也拿了第一。80.0 分，比 dots.ocr 的 79.1 高了将近 1 分，比 MinerU2.5 的 77.5 高了 2.5 分，比 MonkeyOCR-pro-3B 的 75.8 高了 4 分多。olmOCR-Bench 是一个更细粒度的评测，包含 1402 个 PDF 文档和 7010 个测试用例，涵盖了 ArXiv 论文、旧版扫描件、数学表格、多栏文本、长微小文本等各种复杂场景。

两个权威评测，都是第一。怎么说呢，这就不是运气了。

我顺着论文把各个维度的对比拉了一遍，大概是这样，文字识别上，编辑距离 0.035，全面领先；表格识别上，TEDS 90.89，领先所有竞品；公式识别上，CDM 91.22，断层领先；图表识别上，RMS-F1 0.844，远超 72B 大模型的 0.730；推理效率上，比 MinerU2.5 快 53%。

这里展开说一下效率。论文里测了端到端的推理速度，在单张 A100 上跑 512 份 PDF，PaddleOCR-VL 用FastDeploy部署，总耗时 605.6 秒，每秒处理 1.62 页。而 MinerU2.5 用 vLLM 部署，总耗时 927.3 秒，每秒 1.06 页。页面吞吐量高了 53%，Token 吞吐量高了 51%。

又准又快，说真的，这在文档解析领域确实是很少见的组合。

那问题来了，0.9B 的小模型，凭什么能打 72B 的大模型。

我觉得这事最值得讲的地方，不是技术有多炫，而是思路有多对。

传统的大模型做文档解析，思路是端到端的。一张图扔进去，让模型一次输出所有内容，文字、表格、公式、图表，全部混在一起输出。这个思路的问题很明显，长文档的输出序列巨长，模型容易产生幻觉，而且速度慢，因为每输出一个 Token 都要和前面的所有 Token 做注意力计算。

PaddleOCR-VL 的做法完全不一样。其实吧，它把整个过程拆成了两步。

先，用一个轻量级的布局分析模型 PP-DocLayoutV2，先把文档里的各种元素找出来，文字在哪个位置，表格在哪，公式在哪，图表在哪，它们的阅读顺序是什么。这一步不需要大模型，一个目标检测器就够用了。

再，把识别出来的每个元素区域裁剪出来，喂给 PaddleOCR-VL-0.9B 做精准识别。这个 0.9B 的 VLM 虽然小，但它的视觉编码器用了NaViT 架构，可以处理任意分辨率和长宽比的图片，不需要像传统 ViT 那样把图片暴力压缩成固定尺寸。语言模型是 ERNIE-4.5-0.3B，专门针对文字、表格、公式、图表四种元素做了指令微调。

而且这四种元素是同一个模型统一处理的。不需要文字识别一个模型，表格识别一个模型，公式识别一个模型，图表识别一个模型。一个模型搞定所有。

所以核心思路其实很简单，把复杂问题拆成两个简单问题，每个问题用最合适的工具解决。布局分析不需要大模型，就用轻量检测器；元素识别需要理解能力，但不需要理解整篇文档的上下文，只需要理解「这一小块是什么」，所以 0.9B 就够了。

还有一个细节，推理的时候用了多线程异步流水线。数据加载、布局分析、VLM 推理三个环节分别跑在不同的线程里，数据通过队列传递，当队列里的元素积攒到一定数量或者等待时间超过阈值，就触发一次批量推理。这个设计让不同页面的元素可以聚合在一起处理，最大化并行度。

你说这个思路有多高深吗，好像也没有。但它就是比端到端的大模型更有效。

而且吧，这模型的能力边界比我想象的要宽得多。

论文里有一个细节让我印象很深。它自己建了一个叫 In-house-OCR 的评测集，覆盖了109 种语言和 13 种文字类型，包括手写中文、手写英文、印刷体、繁体中文、古籍、拼音、生僻字、竖排文字、单字符、Emoji、艺术字等等。

109 种语言，从阿拉伯语到泰米尔语，从韩语到希腊语，它的编辑距离都是最低的。拉丁语系编辑距离 0.013，几乎是完美识别。日语 0.096，韩语 0.052，泰语 0.081，这些被认为「OCR 很难搞」的语言，它都做得很好。

手写体这块也很有意思。在 Ocean-OCR 手写评测上，中文手写编辑距离 0.034，这什么概念呢，Qwen2-VL-7B 是 0.113，差了快 4 倍。英文手写 0.118，也比 Qwen2-VL-7B 的 0.127 要好。

古籍识别也是一样。竖排，从右到左，字迹斑驳，传统 OCR 基本上直接崩溃，但 PaddleOCR-VL 的编辑距离只有 0.198。繁体中文 0.048，几乎是印刷体级别的精度。

这些场景背后，是同一个模型的同一套架构。它不需要为手写体单独训练一个模型，不需要为古籍单独训练一个模型，不需要为每种语言单独训练一个模型。一个 0.9B 的模型，覆盖了所有这些场景。

我觉得这就回到了文章开头那个问题。为什么 0.9B 能打 72B。

因为 72B 的大模型是通用模型，它要处理的任务太多了，写代码、写文章、翻译、推理、对话，文档解析只是它上千种能力中的一种。而 PaddleOCR-VL 的 0.9B，从训练数据到模型架构到推理流水线，全部围绕文档解析这一个任务设计。3000 多万个训练样本，覆盖了文字、表格、公式、图表、手写、古籍、109 种语言。它不干别的，就干这一件事。

所以它不是「虽然小但很强」，而是「因为专，所以强」。

在 AI 的世界里，不是参数越大越好，而是越对路越好。

这篇论文的模型已经开源了，如果你正在搭 RAG 系统，或者需要处理大量 PDF 文档，值得去看看。它支持 FastDeploy、vLLM、SGLang 三种部署方案，消费级显卡就能跑。

感谢阅读。点个关注，不迷路，我们后续会持续跟进文档解析、OCR、多模态模型等前沿技术动态，第一时间为你解读。