8月22日,A股的半导体板块指数大涨超8%,寒武纪、海光信息等更是拉了20CM涨停。
引爆半导体板块的是:DeepSeek.
8月21日,DeepSeek 悄悄丢下了一颗“深水炸弹”。
它没有发布期待已久的 R2,而是推出了 V3.1。
很多人以为这只是个小版本升级,结果一看细节,震惊了——
它启用了 UE8M0 FP8 这种超低精度数值格式。
这意味着什么?一句话:
未来,中国的大模型,完全可能不靠英伟达,也能高效跑起来。
DeepSeek 的路数,一直很“狠”。
在 V3 的时候,它直接魔改英伟达 GPU 的底层指令,把 CUDA 这套老黄的护城河绕开,硬生生把 A100、A800 的算力榨到极限。
到了 V3.1,玩法变了——
它通过 UE8M0 FP8,让模型在训练和推理时,显存占用能减少最多 75%!
这下国产 GPU 的短板(显存小、带宽弱)就不再是致命问题。
DeepSeek 等于是在告诉所有国产芯片厂商:
“放心吧,跟着我走,你们也能跑大模型。”
别被名字吓到,其实很简单:
过去,AI 模型训练都用高精度的 FP32(32位浮点数)。
显存占得大、能耗高,效率低。
并不是精度低就不好,精度低也有好处。
后来英伟达推出 FP16,再到 FP8,省了不少资源。
但 DeepSeek 用的 UE8M0 更极致:
不记录小数,只保存一个缩放因子(scale)。
存储时用 FP8,计算时自动转成 FP16/FP32 保证精度。
这样做,相当于:
既省资源,又不掉精度。
因为国产 GPU 最大的痛点,就是“硬件不够硬”。
高精度不够、显存小,带宽低,和英伟达 H100、B200 没法比。
但如果有了 UE8M0 FP8,
同样的芯片,也能“压榨”出接近大厂 GPU 的效果。
一句话:
DeepSeek 正在帮国产芯片厂商找到一条捷径,缩短和英伟达的差距。
而这条捷径,以前是英伟达独有的。
要知道,英伟达这些年的“统治力”,靠的就是低精度革命。
FP32 → FP16 → FP8 → 现在甚至 FP4。
每一步,都把 GPU 的效率提升几个数量级。
但这次,DeepSeek 接过了这面大旗,走出了一条“去英伟达化”的道路。
未来,企业可能发现:
没必要非得买老黄的卡,国产 GPU 也能跑大模型。
这,才是老黄最担心的。
在美国出口管制下,英伟达特供了 H20、B30 这类缩水卡给中国。
短期看,还是有市场——毕竟 CUDA 生态太成熟了。
但长期看,如果 DeepSeek 带着国产芯片,把大模型跑通,
B30 的存在感会越来越低。
换句话说:
今天企业买 B30,是“不得不买”。
明天买不买,就要看性价比了。
DeepSeek 的路线,其实一清二楚:
先吃透英伟达的精髓 —— 把成本压到极限。
再激活国产 GPU —— 摆脱依赖。
最终走向算力自由 —— 软硬件协同,一个算力无限的生态。
算力,是中国 AI 的心脏。
只有走通这条路,中国才不会被人“卡脖子”。