半导体板块暴涨8%的背后:一场由DeepSeek引发的算力革命,已然开启

牛财金
2025-08-29

8月22日,A股的半导体板块指数大涨超8%,寒武纪、海光信息等更是拉了20CM涨停。

引爆半导体板块的是:DeepSeek.

8月21日,DeepSeek 悄悄丢下了一颗“深水炸弹”。
它没有发布期待已久的 R2,而是推出了 V3.1

很多人以为这只是个小版本升级,结果一看细节,震惊了——
它启用了 UE8M0 FP8 这种超低精度数值格式。

这意味着什么?一句话:
未来,中国的大模型,完全可能不靠英伟达,也能高效跑起来。


一、先吃透英伟达的精髓,再深挖国产芯片的潜力:

DeepSeek 的路数,一直很“狠”。

在 V3 的时候,它直接魔改英伟达 GPU 的底层指令,把 CUDA 这套老黄的护城河绕开,硬生生把 A100、A800 的算力榨到极限。

到了 V3.1,玩法变了——
它通过 UE8M0 FP8,让模型在训练和推理时,显存占用能减少最多 75%

这下国产 GPU 的短板(显存小、带宽弱)就不再是致命问题。
DeepSeek 等于是在告诉所有国产芯片厂商:
“放心吧,跟着我走,你们也能跑大模型。”

图片

二、什么是 UE8M0 FP8?

别被名字吓到,其实很简单:

过去,AI 模型训练都用高精度的 FP32(32位浮点数)。
显存占得大、能耗高,效率低。

并不是精度低就不好,精度低也有好处。

后来英伟达推出 FP16,再到 FP8,省了不少资源。
但 DeepSeek 用的 UE8M0 更极致:

  • 不记录小数,只保存一个缩放因子(scale)。

  • 存储时用 FP8,计算时自动转成 FP16/FP32 保证精度。

这样做,相当于:
既省资源,又不掉精度。


三、为什么对中国至关重要?

因为国产 GPU 最大的痛点,就是“硬件不够硬”。
高精度不够、显存小,带宽低,和英伟达 H100、B200 没法比。

但如果有了 UE8M0 FP8
同样的芯片,也能“压榨”出接近大厂 GPU 的效果。

一句话:
DeepSeek 正在帮国产芯片厂商找到一条捷径,缩短和英伟达的差距。

而这条捷径,以前是英伟达独有的。


四、英伟达要紧张了吗?

要知道,英伟达这些年的“统治力”,靠的就是低精度革命。
FP32 → FP16 → FP8 → 现在甚至 FP4。
每一步,都把 GPU 的效率提升几个数量级。

但这次,DeepSeek 接过了这面大旗,走出了一条“去英伟达化”的道路。

未来,企业可能发现:
没必要非得买老黄的卡,国产 GPU 也能跑大模型。

这,才是老黄最担心的。


五、中国还需要 B30 吗?

在美国出口管制下,英伟达特供了 H20、B30 这类缩水卡给中国。
短期看,还是有市场——毕竟 CUDA 生态太成熟了。

但长期看,如果 DeepSeek 带着国产芯片,把大模型跑通,
B30 的存在感会越来越低。

换句话说:
今天企业买 B30,是“不得不买”。
明天买不买,就要看性价比了。


六、算力自由的底牌!

DeepSeek 的路线,其实一清二楚:

  1. 先吃透英伟达的精髓 —— 把成本压到极限。

  2. 再激活国产 GPU —— 摆脱依赖。

  3. 最终走向算力自由 —— 软硬件协同,一个算力无限的生态。

算力,是中国 AI 的心脏。
只有走通这条路,中国才不会被人“卡脖子”。

GPU精度的秘密:为什么不是精度越高越好?

DeepSeek V3.1首战GPT-5与Gemini:中国大模型的突围

#deepseek#算力#


分享