DeepSeek OCR新模型登顶榜单:AI 开始像人一样理解文档结构

牛财金
2026-01-29

如果你最近关注多模态模型,大概率已经被一个名字刷屏:DeepSeek

而这一次,它又干了一件不太“卷榜单”、但很可能影响整个视觉理解方向的事——
DeepSeek-OCR2,以及它背后的一个新概念:视觉因果流(Visual Causal Flow)

听起来有点玄,但说白了就一句话:

DeepSeek 终于让机器不再“从左上角开始机械扫描”,而是学会了像人一样,按“逻辑顺序”去读图。

这件事,比 OCR 精度提升 1% 要重要得多。

图片

一、传统 OCR 和多模态模型,问题到底出在哪?

先说一个很多人没意识到的问题。

不管是传统 OCR,还是现在的视觉语言模型(VLM),绝大多数都在用一种非常“反人类”的方式看图

它们是怎么做的?

👉 光栅扫描(Raster Scan)
也就是:
从左到右、从上到下,一行一行地“扫像素”

这在早期计算机视觉时代是无奈之举,但问题是:

  • 一张文档不是“像素阵列”,而是有语义结构的东西

  • 标题、正文、表格、脚注、分栏,它们的阅读顺序并不等于物理顺序

人是怎么读的?

你不会先读左下角的页码,再回头看标题;
你看到表格,会自动“按行或按列”;
你遇到双栏排版,眼睛会跳跃式切换

但模型不会。

于是问题就出现了:

  • 读顺序乱

  • 表格结构被打碎

  • OCR 文本重复、错位、前后颠倒

不是模型不聪明,是“看法”本身就错了。


二、DeepSeek 干了一件“反常识”的事

DeepSeek-OCR2 干的第一件事,就很不寻常:

👉 它没有继续优化“怎么扫图”,而是直接重写了“看图的逻辑”

核心在一个新架构:DeepEncoder V2

一句话总结:

让 LLM 本身,来当视觉编码器。


三、什么是“视觉因果流”?用人话解释

DeepSeek 提出一个概念:Causal Flow(因果流)

不要被“因果”吓到,它本质是在回答一个问题:

下一步,应该看哪里?

在人类阅读中,这是一个动态决策过程

  • 看到标题 → 预期下面是正文

  • 看到表头 → 知道接下来要按列看

  • 看到编号 → 预期后面是条目

阅读顺序,是被语义“拉着走”的。

DeepSeek 把这套逻辑,塞进了视觉编码阶段。


四、DeepEncoder V2 到底做了什么?

我们拆开说,不讲公式。

第一步:图像还是先被切成“视觉 Token”

这一步不新鲜:

  • 用 SAM-base(80M 参数)+ 卷积

  • 把图片变成一堆视觉 token

但重点不在这里。


第二步:关键变化来了 —— 加了一组“查询 Token”

DeepSeek 在视觉编码器里,引入了一组可学习的 Query Tokens

你可以把它理解成:

“我现在想知道:这张图里,最该先读的是什么?”

这些 Query Token 不是图像本身
而是代表“阅读意图”的提问者


第三步:注意力机制,彻底改了

这是 DeepSeek-OCR2 的灵魂。

  • 视觉 Token ↔ 视觉 Token
    👉 双向注意力(全局感知)

  • Query Token ↔ Token 序列
    👉 因果注意力(只能看“前面已经整理过的内容”)

结果是什么?

👉 模型在编码阶段,就已经把图像内容“按逻辑顺序排好了”

而不是像传统做法那样:

“你自己到解码器里慢慢猜顺序吧”


五、这一步,为什么这么重要?

因为它改变了一个老问题:

❌ 以前:

  • 编码器:只负责“压缩”

  • 解码器:一边生成、一边纠错、一边理解结构

✅ 现在:

  • 编码器:已经完成了“语义重排”

  • 解码器:只需按顺序推理

这带来两个直接结果:

1️⃣ Token 更少,但信息更干净
2️⃣ 阅读顺序指标显著提升


六、效果到底有多大?数据不会骗人:

OmniDocBench v1.5

  • 综合得分:91.09%

  • 比上一代 +3.73%

  • 使用的视觉 Token:256–1120(非常克制)

最关键的一个指标:阅读顺序(R-order)

  • Edit Distance

    • OCR1:0.085

    • OCR2:0.057

👉 不是“识别对了”,而是“顺序对了”


和 Gemini-3 Pro 正面对比

同等 Token 数(约 1120)下:

  • DeepSeek-OCR2:0.100

  • Gemini-3 Pro:0.115

而 Gemini 是闭源、重资源、商业模型


七、真实生产环境,才是最狠的一刀

DeepSeek 还放出了线上数据:

  • 用户日志图像

    • OCR 重复率:6.25% → 4.17%

  • PDF 数据生产

    • 重复率:3.69% → 2.88%

这意味着什么?

👉 用来清洗 LLM 训练语料,非常值钱

不是 demo,是实战。


八、这不只是 OCR,而是一个路线选择

DeepSeek 在论文最后,说了一句很重要的话:

LLM 作为视觉编码器,是可行的。

这句话背后的含义是:

  • 未来可能不再区分

    • “视觉模型”

    • “语言模型”

  • 而是:
    👉 统一的因果推理引擎 + 不同模态的查询嵌入

今天是 OCR
明天可以是:

  • 图表理解

  • 工程图

  • 医疗影像

  • 多模态 Agent



九、为什么说这一步,比“又拿第一”更重要?

因为它不是:

  • 堆参数

  • 换数据集

  • 榨 benchmark

而是一次范式级调整

从“怎么看像素”
到“该先理解什么”

这条路,一旦被证明是对的,就很难再回头。


最后一句话

DeepSeek-OCR2 表面上是 OCR 的一次升级
但实际上,它在回答一个更大的问题:

机器,能不能学会“像人一样理解视觉”?

这一次,DeepSeek 给出的答案是:

可以,而且从“阅读顺序”开始。


扩展阅读

对华出口暴涨4倍,加拿大石油为何开始摆脱对美国的依赖?

减免取消99.5%的关税,面对美国的大棒,欧盟和印度选择另起炉灶,签订”贸易之母“协议

斯塔默称英国“不选边站”:盟友开始为“不可预测的美国”定价

英国学生贷款:18 岁那年签下的账,要用 30 年来还

100%关税! 特朗普突然对加拿大下狠手,美国真正的焦虑浮出水面

美国要在格陵兰“无限驻军”:特朗普没放弃吞并,只是换了一种方式

AI 广告战争正式打响:Google 的优势,可能也是它最大的隐患

俄乌战争中的无人机供应链:零部件如何绕过封锁流向战场

不用武力、不加税、不否认:特朗普到底有没有放弃吞并格陵兰?




分享