牛财金

DeepSeek OCR新模型登顶榜单：AI 开始像人一样理解文档结构

牛财金

2026-01-29

如果你最近关注多模态模型，大概率已经被一个名字刷屏：DeepSeek。

而这一次，它又干了一件不太“卷榜单”、但很可能影响整个视觉理解方向的事——
DeepSeek-OCR2，以及它背后的一个新概念：视觉因果流（Visual Causal Flow）。

听起来有点玄，但说白了就一句话：

DeepSeek 终于让机器不再“从左上角开始机械扫描”，而是学会了像人一样，按“逻辑顺序”去读图。

这件事，比 OCR 精度提升 1% 要重要得多。

一、传统 OCR 和多模态模型，问题到底出在哪？

先说一个很多人没意识到的问题。

不管是传统 OCR，还是现在的视觉语言模型（VLM），绝大多数都在用一种非常“反人类”的方式看图。

它们是怎么做的？

👉 光栅扫描（Raster Scan）
也就是：
从左到右、从上到下，一行一行地“扫像素”

这在早期计算机视觉时代是无奈之举，但问题是：

一张文档不是“像素阵列”，而是有语义结构的东西
标题、正文、表格、脚注、分栏，它们的阅读顺序并不等于物理顺序

人是怎么读的？

你不会先读左下角的页码，再回头看标题；
你看到表格，会自动“按行或按列”；
你遇到双栏排版，眼睛会跳跃式切换。

但模型不会。

于是问题就出现了：

读顺序乱
表格结构被打碎
OCR 文本重复、错位、前后颠倒

不是模型不聪明，是“看法”本身就错了。

二、DeepSeek 干了一件“反常识”的事

DeepSeek-OCR2 干的第一件事，就很不寻常：

👉 它没有继续优化“怎么扫图”，而是直接重写了“看图的逻辑”

核心在一个新架构：DeepEncoder V2。

一句话总结：

让 LLM 本身，来当视觉编码器。

三、什么是“视觉因果流”？用人话解释

DeepSeek 提出一个概念：Causal Flow（因果流）。

不要被“因果”吓到，它本质是在回答一个问题：

下一步，应该看哪里？

在人类阅读中，这是一个动态决策过程：

看到标题 → 预期下面是正文
看到表头 → 知道接下来要按列看
看到编号 → 预期后面是条目

阅读顺序，是被语义“拉着走”的。

DeepSeek 把这套逻辑，塞进了视觉编码阶段。

四、DeepEncoder V2 到底做了什么？

我们拆开说，不讲公式。

第一步：图像还是先被切成“视觉 Token”

这一步不新鲜：

用 SAM-base（80M 参数）+ 卷积
把图片变成一堆视觉 token

但重点不在这里。

第二步：关键变化来了 —— 加了一组“查询 Token”

DeepSeek 在视觉编码器里，引入了一组可学习的 Query Tokens。

你可以把它理解成：

“我现在想知道：这张图里，最该先读的是什么？”

这些 Query Token 不是图像本身
而是代表“阅读意图”的提问者

第三步：注意力机制，彻底改了

这是 DeepSeek-OCR2 的灵魂。

视觉 Token ↔ 视觉 Token
👉 双向注意力（全局感知）
Query Token ↔ Token 序列
👉 因果注意力（只能看“前面已经整理过的内容”）

结果是什么？

👉 模型在编码阶段，就已经把图像内容“按逻辑顺序排好了”

而不是像传统做法那样：

“你自己到解码器里慢慢猜顺序吧”

五、这一步，为什么这么重要？

因为它改变了一个老问题：

❌ 以前：

编码器：只负责“压缩”
解码器：一边生成、一边纠错、一边理解结构

✅ 现在：

编码器：已经完成了“语义重排”
解码器：只需按顺序推理

这带来两个直接结果：

1️⃣ Token 更少，但信息更干净
2️⃣ 阅读顺序指标显著提升

六、效果到底有多大？数据不会骗人：

OmniDocBench v1.5

综合得分：91.09%
比上一代 +3.73%
使用的视觉 Token：256–1120（非常克制）

最关键的一个指标：阅读顺序（R-order）

Edit Distance

OCR1：0.085
OCR2：0.057

👉 不是“识别对了”，而是“顺序对了”

和 Gemini-3 Pro 正面对比

在同等 Token 数（约 1120）下：

DeepSeek-OCR2：0.100
Gemini-3 Pro：0.115

而 Gemini 是闭源、重资源、商业模型。

七、真实生产环境，才是最狠的一刀

DeepSeek 还放出了线上数据：

用户日志图像

OCR 重复率：6.25% → 4.17%

PDF 数据生产

重复率：3.69% → 2.88%

这意味着什么？

👉 用来清洗 LLM 训练语料，非常值钱

不是 demo，是实战。

八、这不只是 OCR，而是一个路线选择

DeepSeek 在论文最后，说了一句很重要的话：

LLM 作为视觉编码器，是可行的。

这句话背后的含义是：

未来可能不再区分

“视觉模型”
“语言模型”

而是：
👉 统一的因果推理引擎 + 不同模态的查询嵌入

今天是 OCR
明天可以是：

图表理解
工程图
医疗影像
多模态 Agent

九、为什么说这一步，比“又拿第一”更重要？

因为它不是：

堆参数
换数据集
榨 benchmark

而是一次范式级调整：

从“怎么看像素”
到“该先理解什么”

这条路，一旦被证明是对的，就很难再回头。

最后一句话

DeepSeek-OCR2 表面上是 OCR 的一次升级
但实际上，它在回答一个更大的问题：

机器，能不能学会“像人一样理解视觉”？

这一次，DeepSeek 给出的答案是：

可以，而且从“阅读顺序”开始。

扩展阅读

对华出口暴涨4倍，加拿大石油为何开始摆脱对美国的依赖？‍

减免取消99.5%的关税，面对美国的大棒，欧盟和印度选择另起炉灶，签订”贸易之母“协议

斯塔默称英国“不选边站”：盟友开始为“不可预测的美国”定价‍

英国学生贷款：18 岁那年签下的账，要用 30 年来还

100%关税! 特朗普突然对加拿大下狠手，美国真正的焦虑浮出水面

美国要在格陵兰“无限驻军”：特朗普没放弃吞并，只是换了一种方式

AI 广告战争正式打响：Google 的优势，可能也是它最大的隐患

俄乌战争中的无人机供应链：零部件如何绕过封锁流向战场

不用武力、不加税、不否认：特朗普到底有没有放弃吞并格陵兰？

关于我们