384颗华为昇腾910C芯片如何干翻英伟达?这份技术拆解令人震撼

牛财金
2025-05-25

引言:中美科技博弈下的AI超算“破局战”

今年4月,华为在芜湖数据中心推出了全球首个CloudMatrix 384超节点应用。

在中美科技竞争持续升级的背景下,华为昇腾910C芯片与其系统级集群方案 CloudMatrix 384 正成为全球技术舆论的关注焦点。

SemiAnalysis 最新分析显示,华为基于 384 颗 Ascend 910C 构建的全互联架构,不仅在大模型训练性能上全面超越英伟达 GB200 NVL72,更通过系统级的创新,走出一条完全不同的技术路线。

然而,这场“正面硬刚”的背后,也引发了广泛争议:华为是否为性能付出了不可忽视的能耗代价? 中国是否可以依靠能源优势弥补能效短板?

本文将从 芯片设计、系统架构、供应链博弈 三大维度深度解析这场AI技术突围路径。


吸睛摘要
性能翻倍、能耗翻三倍、供应链难题——华为AI超算CloudMatrix是硬刚NVIDIA,还是破而后立?


图片

图1. 华为CloudMatrix 384系统集群。


一、性能碾压:CloudMatrix 384 的“规模换效率”战略

华为CloudMatrix 384 的核心优势,在于其大规模横向扩展能力。通过将 384颗昇腾910C芯片以全互联拓扑(Fully Connected Topology)方式集成,华为打造了一个高达 300 PetaFLOPS(BF16) 的算力集群,性能是 英伟达GB200 NVL72(约140 PetaFLOPS) 的两倍。

更关键的是,内存带宽提升2.1倍、总内存容量提升3.6倍,使得大模型训练中的主要瓶颈从计算单元转向了存储系统,这正是当前NVIDIA架构的短板所在。

关键参数对比表:

指标
华为 CloudMatrix 384
NVIDIA GB200 NVL72
总算力(BF16)
300 PetaFLOPS
140 PetaFLOPS
内存带宽
提升2.1倍
-
总内存容量
提升3.6倍
-
单GPU能耗
70%-80%
100%
集群总能耗
500 kW145 kW
图片

图2. 华为昇腾910C和英伟达GB200单个芯片和系统集群的性能对照表。

华为的核心逻辑:

华为选择了一条“以规模换效率”的道路:尽管单颗 Ascend 910C 的算力仅为 NVIDIA Blackwell GPU 的约 1/3,但通过部署 数量是其5倍的芯片,实现了“量变到质变”的性能跃迁。

尤其在 AI 大模型训练中,边际成本递减效应的存在使得这种横向扩展方式更具性价比。


二、系统级创新:光模块堆叠的“狂野架构”

CloudMatrix 384 的颠覆不止于芯片性能,更体现在其跨层级的系统设计

CloudMatrix 384 POD的结构与DGX H100 NVL256“Ranger”相似。

系统由 16 个机架组成,其中 12 个计算架每架部署 32 枚GPU,4 个中心交换架用于垂直互联。华为采用跨机架垂直扩展+光通信技术,实现了数百GPU之间的全互联拓扑

为实现这一目标,华为提出了 “光速互联”解决方案,部署 6,912 个 400G LPO 光模块(Linear Pluggable Optics)

  • 垂直扩展网络:每颗 Ascend 910C 配备 7 个光模块,共 5,376 个,带宽达 2.8 Tbps/GPU

  • 水平扩展网络:交付单元POD间互联需 1,536 个光模块,采用 双层8轨优化拓扑结构

图片

图3. 英伟达DGX H100 NVL256“Ranger”平台。

为什么选用 LPO?

LPO 模块省略了传统DSP(数字信号处理器),实现模拟信号的直接传输,结构更简单,功耗和成本降低超30%。每个模块功耗仅 6.5W,成本低于200美元。

然而,即便如此,整体集群功耗仍高达500kW,对散热和维护提出极大挑战。华为依靠自研故障容忍训练软件(Fault-Tolerant Training Software)提升系统稳定性。

技术争议点:

争议
解读
能耗代价是否过大?
尽管LPO降低单模块功耗,但高密度部署总能耗高达英伟达的3.9倍。
系统稳定性存疑?
7,000+光模块对散热、维护提出挑战,需软件容错能力支撑。

华为的底层逻辑:

能源成本可控的背景下(中国可再生能源装机量世界第一),通过 “堆叠光模块 + 软件容错” 实现系统级突围,是对传统NVLink铜缆互联路线的系统级颠覆。


三、供应链博弈:国产化率不足的“阿喀琉斯之踵”

尽管 CloudMatrix 384 展现出强大技术实力,但华为芯片仍未摆脱对外部供应链的依赖

1. HBM依赖三星,国产替代仍待时日

目前 Ascend 910C 的 HBM(高带宽内存)全部依赖三星供应。国内厂商长鑫存储(CXMT)预计 2026年才可能实现量产。华为已囤积约1300万颗HBM(可封装160万颗芯片),但供需依然紧张。

2. 供应链“破局路径”

在美国禁运压力下,HBM并不直接受控,只要不超过FLOPS限制,带HBM的芯片可以通过“代工通道”合法运输,如台湾Faraday等通道。

3. 制造瓶颈仍存

SMIC当前16nm制程产能有限,2024年每月仅5万片晶圆产能,设备进口亦受限,这成为华为AI芯片规模化的最大技术卡点之一。

图片

图4. 中国能源生产趋势 (美国能源部数据)


四、能源红利:中国AI基础设施的“秘密武器”

尽管在能源效率方面存在这些缺点,但在中国背景下,电力消耗问题并不是一个关键的制约因素。西方经常认为人工智能的发展受到电力供应的限制,而中国的情况恰恰相反。

尽管中国的能源系统传统上严重依赖煤炭,但中国现在在太阳能、水电和风能的装机容量方面领先世界,目前处于核电部署的前沿。相比之下,美国的核能力仍处于20世纪70年代的水平。美国电网的升级和扩建能力明显减弱,而中国自2011年以来引入的额外电网容量与美国电网的整体规模相当。

在电力相对充足且能耗限制不那么关键的情况下,放弃严格的功率密度要求以支持更广泛的扩展是一个合乎逻辑的工程决策,特别是在将光学互连技术等进步纳入设计时。事实上,华为CM384的设计甚至考虑了超出机架的系统级限制。

CloudMatrix 384 的高能耗虽然在西方被认为“不具可持续性”,但在中国,却具备 战略性成本优势

图片

图5. 美国能源生产趋势 (美国能源部数据)

中国的能源现状:

  • 可再生能源装机量全球第一:太阳能、风电、水电全面领先;

  • 电网基础设施快速扩张:2011年至今,中国新增电网容量已接近美国电网总量;

  • 核能快速发展:中国核电部署领先,西方则维持70年代水平。


成本测算对比:

项目
华为 CloudMatrix 384
NVIDIA NVL72
功耗
500kW
145kW
年电费(中国电价)
~$300万
~$200万
单位算力电价比
1.5倍内
-

图4 & 图5:中美能源趋势对比图(数据来源:美国能源部)

政策利好:

国家发改委已将AI数据中心纳入“新基建”,华为等企业在西部地区可享受“绿电直供”等政策,进一步压缩能耗成本。

结论:在电力成本可控的中国环境下,“高能耗换高性能”是合理的系统级工程策略,甚至是一种战略优势。


五、未来展望:中国AI芯片的“第二曲线”

CloudMatrix 384 的发布标志着,中国AI芯片已从“追赶者”进入“差异化竞争者”阶段。

尽管单芯片 FLOPS/W 仍落后英伟达 2.3 倍,但凭借系统级创新能力、能源配套能力和供应链突围,华为已具备在AI基础设施层面对美系架构形成实质挑战的能力

CloudMatrix 384 的诞生,是华为在美国制裁下的系统性“破局之作”,也是中国AI从边缘走向主舞台的关键节点。

这是华为对全球技术霸权体系的正面挑战。

然而,真正的考验还在后头:HBM国产化能否加速?先进工艺能否突围? 这不仅关系华为的下一代产品,更决定中国能否在全球AI产业实现从“跟随者”到“引领者”的跃迁。

扩展阅读

美国外交政策重大转向!万斯宣布结束海外干预,美国优先重塑中美俄关系

美国封杀华为AI芯片,抗议无效,反击还需利剑,呼唤中国的长臂管辖

牛财金微信LOGO-3.jpg


分享