DeepSeek mHC技术炸场!美国分析师称“突破性时刻”:算力卡脖子后,大模型靠“换路”继续强

牛财金
2026-01-06

DeepSeek 一篇论文,为什么被美国分析师称为“突破性时刻”?

2026 年刚开始,中国 AI 圈没有发布新模型,
却悄悄扔出了一篇让美国分析师坐直身体的论文

它没有谈参数规模,也没谈算力投入,
只回答了一个现实问题:

当算力被卡死之后,大模型还能不能继续变强?

答案,来自 DeepSeek。

图片

一、先说结论:这不是优化,而是“换路”

过去两年,大模型竞争的主旋律只有一个:

谁的参数更多,谁的算力更猛,谁的卡堆得更狠。

但到 2025 年之后,这条路正在遇到现实天花板。

芯片受限、算力受限、先进制程受限——
对中国 AI 来说,问题已经非常具体:

如果不能无限堆算力,大模型还能不能继续进化?

DeepSeek 这篇论文给出的答案是:

可以,但不能再靠“往外堆”,而要“往里改”。

这不是一次小修小补,
而是一次训练范式级别的路线切换


二、一个被忽略的问题:模型不是“算不动”,而是“信息走不动”

要理解这篇论文,必须先理解一个长期被忽略的事实:

大模型真正的瓶颈,未必在算力,而在内部信息流动方式。

当前几乎所有主流大模型,
底层仍然依赖一种非常经典的结构——残差连接(Residual Connection)

它的好处很明显:

  • 稳定

  • 不容易崩

  • 适合深层网络

但它也有一个致命缺陷:

信息通道太窄。

你可以这样理解:

  • 模型越做越大

  • 但“内部高速公路”依然是单向车道

  • 信息在层与层之间排队、拥堵、衰减

所以,学术界早就有一个共识方向:

要不要让模型内部,多修几条“信息通道”?


三、为什么“超连接”以前几乎必崩?

这个想法并不新,
对应的技术路线叫 Hyper-Connections(超连接)

问题是——
以前几乎没有人在大模型上真正跑通。

原因很简单:

  • 信息一多;

  • 梯度就容易爆;

  • 数值直接失控;

  • 训练过程崩溃;

一句话总结:

放开信息,模型先死。

这也是为什么,
过去十多年里,大模型结构虽然不断加深、加大,
信息流动方式本身几乎没被真正改动过


四、DeepSeek 的关键一刀:不是“多连线”,而是“加护栏”!

这正是 mHC(Manifold-Constrained Hyper-Connections)的核心价值。

DeepSeek 并没有简单地“增加连接”,
而是做了一件非常工程、也非常数学的事:

让信息可以多交流,但必须被严格约束。

他们的做法是:

  • 将模型内部的“超连接矩阵”

  • 强制约束在一个特定的数学流形上

  • 使其满足一个关键条件:双随机(Doubly Stochastic)

这意味着什么?

用人话说就是:

所有信息流动,本质上都是加权平均,
谁都不能无限放大自己的声音。

结果非常关键:

  • 信息通道变宽了;

  • 但梯度不爆;

  • 训练稳定性保住了;

这一步,过去几乎没人能在大模型规模上真正做到。


五、为什么分析师说这是“突破性时刻”?

因为这不是“看起来很美”,而是真的跑通了

论文中,DeepSeek 在 3B、9B、27B 等不同规模模型上验证:

  • 训练过程稳定

  • 性能优于传统残差结构

  • 显著好于无约束的超连接方案

而且,代价并不高。

额外训练成本,大约只增加 6%–7%。

在今天的大模型世界里,
这是一个几乎可以忽略的代价。

这也是为什么 Counterpoint 的分析师会评价:

“This is a striking breakthrough.”


六、这不是写给论文圈的,是写给对手看的

还有一句评价,非常值得反复看:

This paper reads as a statement of DeepSeek’s internal capabilities.

翻译成一句大白话就是:

这是在告诉所有人:
我们可以从底层重构整个训练架构。

注意,这意味着什么:

  • 不是调用别人的成熟方案

  • 不是在开源框架上修修补补

  • 而是敢动训练栈最底层的结构

在今天的大模型圈,
这种能力并不常见。


七、它和DeepSeek R1、R2 的真正关系?

如果你回看 DeepSeek 的时间线,会发现一个熟悉节奏:

  • 2025 年初:先发布基础训练研究;

  • 随后推出 R1 推理模型 → 行业震动;

现在:

  • 2026 年初:mHC 论文先行

  • 下一代模型(R2 / V4)呼之欲出

这不是巧合。

这篇论文,本质上是:

下一代模型“骨架”的公开预告。

至于最终名字叫不叫 R2,
反而已经没那么重要了。


八、更大的背景:这是一条现实的“中国路线”!

如果把视角再抬高一层,mHC 的意义在于:

它证明了一件事:
在算力受限的条件下,大模型仍然存在“结构红利”。

这对中国 AI 的现实意义非常直接:

  • 不必完全复制“无限堆算力”的美国路线;

  • 架构创新、训练约束、信息流设计
    依然是可突破方向

这不是情绪判断,而是技术事实。


结语:DeepSeek的这个新技术真正改变的是什么?

mHC 并不能保证中国 AI 一定胜出,
但它至少证明了一件事:

当算力红利接近终点,
真正的竞争,会回到工程和结构本身。

扩展阅读

日本“痴呆资金”正在失控:这不是养老问题,而是一颗定时炸弹

刚拿下委内瑞拉 特朗普盯上下一目标:我们绝对需要格陵兰

欧洲养老金危机真相:所有人都知道撑不住,但没人愿意让步

牛财金微信LOGO-3.jpg


分享