如果你最近关注多模态模型,大概率已经被一个名字刷屏:DeepSeek。
而这一次,它又干了一件不太“卷榜单”、但很可能影响整个视觉理解方向的事——
DeepSeek-OCR2,以及它背后的一个新概念:视觉因果流(Visual Causal Flow)。
听起来有点玄,但说白了就一句话:
DeepSeek 终于让机器不再“从左上角开始机械扫描”,而是学会了像人一样,按“逻辑顺序”去读图。
这件事,比 OCR 精度提升 1% 要重要得多。

先说一个很多人没意识到的问题。
不管是传统 OCR,还是现在的视觉语言模型(VLM),绝大多数都在用一种非常“反人类”的方式看图。
它们是怎么做的?
👉 光栅扫描(Raster Scan)
也就是:
从左到右、从上到下,一行一行地“扫像素”
这在早期计算机视觉时代是无奈之举,但问题是:
一张文档不是“像素阵列”,而是有语义结构的东西
标题、正文、表格、脚注、分栏,它们的阅读顺序并不等于物理顺序
人是怎么读的?
你不会先读左下角的页码,再回头看标题;
你看到表格,会自动“按行或按列”;
你遇到双栏排版,眼睛会跳跃式切换。
但模型不会。
于是问题就出现了:
读顺序乱
表格结构被打碎
OCR 文本重复、错位、前后颠倒
不是模型不聪明,是“看法”本身就错了。
DeepSeek-OCR2 干的第一件事,就很不寻常:
👉 它没有继续优化“怎么扫图”,而是直接重写了“看图的逻辑”
核心在一个新架构:DeepEncoder V2。
一句话总结:
让 LLM 本身,来当视觉编码器。
DeepSeek 提出一个概念:Causal Flow(因果流)。
不要被“因果”吓到,它本质是在回答一个问题:
下一步,应该看哪里?
在人类阅读中,这是一个动态决策过程:
看到标题 → 预期下面是正文
看到表头 → 知道接下来要按列看
看到编号 → 预期后面是条目
阅读顺序,是被语义“拉着走”的。
DeepSeek 把这套逻辑,塞进了视觉编码阶段。
我们拆开说,不讲公式。
这一步不新鲜:
用 SAM-base(80M 参数)+ 卷积
把图片变成一堆视觉 token
但重点不在这里。
DeepSeek 在视觉编码器里,引入了一组可学习的 Query Tokens。
你可以把它理解成:
“我现在想知道:这张图里,最该先读的是什么?”
这些 Query Token 不是图像本身
而是代表“阅读意图”的提问者
这是 DeepSeek-OCR2 的灵魂。
视觉 Token ↔ 视觉 Token
👉 双向注意力(全局感知)
Query Token ↔ Token 序列
👉 因果注意力(只能看“前面已经整理过的内容”)
结果是什么?
👉 模型在编码阶段,就已经把图像内容“按逻辑顺序排好了”
而不是像传统做法那样:
“你自己到解码器里慢慢猜顺序吧”
因为它改变了一个老问题:
编码器:只负责“压缩”
解码器:一边生成、一边纠错、一边理解结构
编码器:已经完成了“语义重排”
解码器:只需按顺序推理
这带来两个直接结果:
1️⃣ Token 更少,但信息更干净
2️⃣ 阅读顺序指标显著提升
综合得分:91.09%
比上一代 +3.73%
使用的视觉 Token:256–1120(非常克制)
Edit Distance
OCR1:0.085
OCR2:0.057
👉 不是“识别对了”,而是“顺序对了”
在同等 Token 数(约 1120)下:
DeepSeek-OCR2:0.100
Gemini-3 Pro:0.115
而 Gemini 是闭源、重资源、商业模型。
DeepSeek 还放出了线上数据:
用户日志图像
OCR 重复率:6.25% → 4.17%
PDF 数据生产
重复率:3.69% → 2.88%
这意味着什么?
👉 用来清洗 LLM 训练语料,非常值钱
不是 demo,是实战。
DeepSeek 在论文最后,说了一句很重要的话:
LLM 作为视觉编码器,是可行的。
这句话背后的含义是:
未来可能不再区分
“视觉模型”
“语言模型”
而是:
👉 统一的因果推理引擎 + 不同模态的查询嵌入
今天是 OCR
明天可以是:
图表理解
工程图
医疗影像
多模态 Agent
因为它不是:
堆参数
换数据集
榨 benchmark
而是一次范式级调整:
从“怎么看像素”
到“该先理解什么”
这条路,一旦被证明是对的,就很难再回头。
DeepSeek-OCR2 表面上是 OCR 的一次升级
但实际上,它在回答一个更大的问题:
机器,能不能学会“像人一样理解视觉”?
这一次,DeepSeek 给出的答案是:
可以,而且从“阅读顺序”开始。
扩展阅读