深度剖析百度 PaddleOCR-VL 0.9B 的文档解析方案:两阶段架构、统一建模与开源实践

一个0.9B 参数的小模型,在文档解析的权威评测 OmniDocBench 里拿了总分第一,92.86 分。第二名 MinerU2.5 是 90.67,差的不是很多。但你再往下看,GPT-4o 只有 75.02,Qwen2.5-VL-72B 只有 87.02,Gemini 2.5 Pro 也只有 88.03。

0.9B 对 72B。参数差了 80 倍,分数反超了将近 6 分。

这个数据大部分人看到的第一反应是,OCR 这东西不是早就解决了吗,微信扫一扫都能把图片转文字,有什么好卷的。

说实话,我以前也是这么想的。直到去年我自己搭 RAG 系统的时候,被 PDF 文档解析折磨了整整两周。

你有一份三栏排版的学术论文,里面有表格,有公式,有图表,你把它丢给一个普通的 OCR 工具。结果呢,文字倒是读出来了,但公式变成了乱码,表格的列全串了,图表干脆被识别成了「图片」,阅读顺序更是乱七八糟,第一段读到一半直接跳到第三栏去了。

你心想,那我换个 GPT-4o 试试。结果它确实能读出来一些东西,但公式还是错的,表格结构还是烂的,而且跑一次要等好几秒,一份 50 页的 PDF 跑下来,喝杯咖啡回来还没跑完。

这时候你才意识到,OCR 和文档解析,根本是两件事。

OCR 只负责认字,它不认识表格的结构,不知道公式的上下标关系,看不懂图表的纵轴和横轴。它就像一个只会认字的小学生,你给他一篇论文,他能把每个字都念出来,但完全不知道这篇论文在说什么。

而文档解析要做的,是看懂整篇文档的结构。哪段是正文,哪块是表格,哪个是公式,哪个是图表,这些东西的阅读顺序是什么,最后把它们全部转成结构化的格式,比如 Markdown。

这个差距,在过去这一年突然变得特别重要。因为 RAG 系统爆发了,每个人都在给自己的 AI 接文档,但很少有人意识到,文档解析的质量直接决定了 AI 回答的靠谱程度。你喂给 AI 的是一堆乱码,它吐出来的答案能对吗。

但问题不止于此。就算你理解了文档解析比 OCR 难,你大概率还是会觉得,这种复杂任务,肯定是大模型更擅长吧。


回到开头说的那篇论文,来自百度的PaddleOCR-VL。它在 OmniDocBench v1.5 上拿了第一 92.86 分,好几个子项的表现也很好。

先说文字识别。编辑距离只有 0.035,几乎是零错误。这个数字什么概念呢,第二名的 MinerU2.5 是 0.047,GPT-4o 是 0.217。编辑距离越低越好,0.035,也就是每 1000 个字符里只错 35 个,而且大部分可能还是标点符号这种级别的。

公式识别就更夸张了。公式CDM 分数91.22,比第二名 MinerU2.5 的 88.46 高出将近 3 分。你别看 3 分好像不多,在公式识别这个子任务上,上一代最好的模型 MonkeyOCR-pro-3B 才 87.25,Qwen2.5-VL-72B 是 88.27。PaddleOCR-VL 直接把天花板往上推了一截。

表格结构还原也是断层级的。表格TEDS 分数90.89,比 MinerU2.5 的 88.22 高了 2 分多。表格 TEDS-S 达到了 94.76,这个指标衡量的是表格结构还原的精度,包括单元格合并、行列对齐这些。以前做表格识别最怕的就是合并单元格,一合并就乱,PaddleOCR-VL 在这个指标上的表现是断层式的。

而且它不是只赢了这几个指标。阅读顺序编辑距离 0.043,和最好的水平持平。英文表格 TEDS 在 OmniDocBench v1.0 上略低一些,88.0,但论文里解释了这个差距主要是标注错误导致的,中文表格 TEDS 是 92.14,几乎是碾压级的。

但更有意思的是,它不是只赢了大模型,它还赢了所有专用模型。

说真的,我一开始看到 0.9B 拿第一的时候,脑子里想的是,是不是只在 OmniDocBench 这一个评测上运气好。毕竟单榜第一这种事,有时候换个评测集就现原形了。

结果它在olmOCR-Bench上也拿了第一。80.0 分,比 dots.ocr 的 79.1 高了将近 1 分,比 MinerU2.5 的 77.5 高了 2.5 分,比 MonkeyOCR-pro-3B 的 75.8 高了 4 分多。olmOCR-Bench 是一个更细粒度的评测,包含 1402 个 PDF 文档和 7010 个测试用例,涵盖了 ArXiv 论文、旧版扫描件、数学表格、多栏文本、长微小文本等各种复杂场景。

两个权威评测,都是第一。怎么说呢,这就不是运气了。

我顺着论文把各个维度的对比拉了一遍,大概是这样,文字识别上,编辑距离 0.035,全面领先;表格识别上,TEDS 90.89,领先所有竞品;公式识别上,CDM 91.22,断层领先;图表识别上,RMS-F1 0.844,远超 72B 大模型的 0.730;推理效率上,比 MinerU2.5 快 53%。

这里展开说一下效率。论文里测了端到端的推理速度,在单张 A100 上跑 512 份 PDF,PaddleOCR-VL 用FastDeploy部署,总耗时 605.6 秒,每秒处理 1.62 页。而 MinerU2.5 用 vLLM 部署,总耗时 927.3 秒,每秒 1.06 页。页面吞吐量高了 53%,Token 吞吐量高了 51%。

又准又快,说真的,这在文档解析领域确实是很少见的组合。

那问题来了,0.9B 的小模型,凭什么能打 72B 的大模型。

我觉得这事最值得讲的地方,不是技术有多炫,而是思路有多对。

传统的大模型做文档解析,思路是端到端的。一张图扔进去,让模型一次输出所有内容,文字、表格、公式、图表,全部混在一起输出。这个思路的问题很明显,长文档的输出序列巨长,模型容易产生幻觉,而且速度慢,因为每输出一个 Token 都要和前面的所有 Token 做注意力计算。

PaddleOCR-VL 的做法完全不一样。其实吧,它把整个过程拆成了两步

先,用一个轻量级的布局分析模型 PP-DocLayoutV2,先把文档里的各种元素找出来,文字在哪个位置,表格在哪,公式在哪,图表在哪,它们的阅读顺序是什么。这一步不需要大模型,一个目标检测器就够用了。

再,把识别出来的每个元素区域裁剪出来,喂给 PaddleOCR-VL-0.9B 做精准识别。这个 0.9B 的 VLM 虽然小,但它的视觉编码器用了NaViT 架构,可以处理任意分辨率和长宽比的图片,不需要像传统 ViT 那样把图片暴力压缩成固定尺寸。语言模型是 ERNIE-4.5-0.3B,专门针对文字、表格、公式、图表四种元素做了指令微调。

而且这四种元素是同一个模型统一处理的。不需要文字识别一个模型,表格识别一个模型,公式识别一个模型,图表识别一个模型。一个模型搞定所有。

所以核心思路其实很简单,把复杂问题拆成两个简单问题,每个问题用最合适的工具解决。布局分析不需要大模型,就用轻量检测器;元素识别需要理解能力,但不需要理解整篇文档的上下文,只需要理解「这一小块是什么」,所以 0.9B 就够了。

还有一个细节,推理的时候用了多线程异步流水线。数据加载、布局分析、VLM 推理三个环节分别跑在不同的线程里,数据通过队列传递,当队列里的元素积攒到一定数量或者等待时间超过阈值,就触发一次批量推理。这个设计让不同页面的元素可以聚合在一起处理,最大化并行度。

你说这个思路有多高深吗,好像也没有。但它就是比端到端的大模型更有效。

而且吧,这模型的能力边界比我想象的要宽得多。

论文里有一个细节让我印象很深。它自己建了一个叫 In-house-OCR 的评测集,覆盖了109 种语言和 13 种文字类型,包括手写中文、手写英文、印刷体、繁体中文、古籍、拼音、生僻字、竖排文字、单字符、Emoji、艺术字等等。

109 种语言,从阿拉伯语到泰米尔语,从韩语到希腊语,它的编辑距离都是最低的。拉丁语系编辑距离 0.013,几乎是完美识别。日语 0.096,韩语 0.052,泰语 0.081,这些被认为「OCR 很难搞」的语言,它都做得很好。

手写体这块也很有意思。在 Ocean-OCR 手写评测上,中文手写编辑距离 0.034,这什么概念呢,Qwen2-VL-7B 是 0.113,差了快 4 倍。英文手写 0.118,也比 Qwen2-VL-7B 的 0.127 要好。

古籍识别也是一样。竖排,从右到左,字迹斑驳,传统 OCR 基本上直接崩溃,但 PaddleOCR-VL 的编辑距离只有 0.198。繁体中文 0.048,几乎是印刷体级别的精度。

这些场景背后,是同一个模型的同一套架构。它不需要为手写体单独训练一个模型,不需要为古籍单独训练一个模型,不需要为每种语言单独训练一个模型。一个 0.9B 的模型,覆盖了所有这些场景。

我觉得这就回到了文章开头那个问题。为什么 0.9B 能打 72B。

因为 72B 的大模型是通用模型,它要处理的任务太多了,写代码、写文章、翻译、推理、对话,文档解析只是它上千种能力中的一种。而 PaddleOCR-VL 的 0.9B,从训练数据到模型架构到推理流水线,全部围绕文档解析这一个任务设计。3000 多万个训练样本,覆盖了文字、表格、公式、图表、手写、古籍、109 种语言。它不干别的,就干这一件事。

所以它不是「虽然小但很强」,而是「因为专,所以强」。

在 AI 的世界里,不是参数越大越好,而是越对路越好。

这篇论文的模型已经开源了,如果你正在搭 RAG 系统,或者需要处理大量 PDF 文档,值得去看看。它支持 FastDeploy、vLLM、SGLang 三种部署方案,消费级显卡就能跑。

感谢阅读。点个关注,不迷路,我们后续会持续跟进文档解析、OCR、多模态模型等前沿技术动态,第一时间为你解读。