提到 GPU 算力,很多人的第一反应是:精度越高越好,越高端。比如科学计算里常见的 双精度(FP64),好像比 单精度(FP32) 强很多。
但在人工智能大模型的世界里,情况恰恰相反:精度越低,反而可能越香。
为什么会这样?
牛财君带你拆解 GPU 精度的秘密。
GPU 在进行计算时,需要用数字表示权重、输入和中间结果。常见的表示方法是 浮点数(Floating Point)。
FP64:64位浮点(双精度),常用于科学计算。
FP32:32位浮点(单精度),传统深度学习的主力。
FP16 / BF16:16位浮点(半精度),逐渐成为大模型训练的标配。
FP8 / UE8M0:8位浮点(超低精度),是新的方向。
在很多领域,需要高精度。
高精度计算的优点:
计算稳定,误差很小。
适合需要高精度的科学计算(如天气模拟、量子化学)。
在训练 AI 模型的初期,能保证收敛稳定。
缺点:
显存占用巨大。同样一层神经网络,FP32 占用空间可能是 FP16 的两倍。
计算耗时长,能耗高。
用 FP32 或 FP64 来训练百亿、千亿级的大模型,成本会是天文数字。
人们发现:不需要每一步都那么精确,结果仍然可用。低精度计算诞生了。
低精度计算的优点:
速度快:计算逻辑简单,吞吐量高。
显存省:同样的存储空间,能放下更多参数。
能耗低:能效比大幅提升。
缺点:
数值不稳定,容易“溢出”或“下溢”。
精度不足,可能导致训练发散。
必须依赖额外的技术(比如混合精度训练、scale 缩放)来稳定结果。
这就是为什么英伟达、谷歌、DeepSeek 都在探索 FP16 / FP8 的各种方案。
原因很简单:模型太大了。
GPT、DeepSeek 这类大模型,参数量动辄千亿级。如果用高精度(FP32/FP64)存储和计算,可能算不动、装不下。
于是业界逐渐形成了共识:
训练初期:用较高的精度,比如 FP16/BF16,确保收敛。
训练后期 & 推理:用更低的精度(FP8、甚至FP4)来省资源。
通过算法补偿,比如 scale 因子(UE8M0),低精度依旧能保持稳定效果。
中国 GPU 在 高精度(FP32/FP64) 上落后于英伟达。这也是为什么在科学计算和超级计算机领域,国产 GPU 还没替代进口。
但在 低精度(FP16/FP8) 上,中国 GPU有机会“弯道超车”:
带宽和算力的不足,可以通过更紧凑的低精度来弥补。
DeepSeek 的 UE8M0 技术,通过存储缩放因子,帮助国产 GPU 稳定跑大模型。
未来国产 GPU 可以利用 FP8/UE8M0,让大模型在国产芯片上跑通。
换句话说:在 AI 训练和推理领域,低精度可能成为中国 GPU 的突破口。
随着 AI 进入低精度时代,算力自主将不再是单纯的硬件较量,而是“算法 + 硬件”共同演绎的结果。