在中美科技博弈的高压下,中国AI科研团队正以一场静默的“技术突围”,改写全球AI算力竞赛的规则。近日,清华大学与两家中国AI初创公司——月之暗面(Moonshot AI)和无问芯穹(Infinigence AI)——在国际顶级学术会议上接连斩获重量级奖项,其核心突破不仅在于算法效率的提升,更在于通过软硬件协同优化,成功绕开美国芯片禁令的封锁,为全球AI算力革命开辟了新路径。
在刚刚结束的第23届USENIX FAST会议上,清华大学计算机系与月之暗面联合研发的 Mooncake系统 一举斩获埃里克·里德尔最佳论文奖。这一系统针对大语言模型(LLM)推理的高计算需求,提出了一种“以键值缓存(KVCache)为中心”的架构创新。
技术突破与性能表现:
架构革命
能效跃升
实际应用
战略意义:
清华大学团队指出,Mooncake的突破性在于“用软件优化抵消硬件劣势”。在英伟达高端GPU被禁运的背景下,该架构通过降低对尖端GPU的依赖,使中国AI企业能在现有芯片(如A800/H800)上实现接近国际顶尖模型的性能,同时大幅减少算力成本。
图. 清华大学团队获得埃里克·里德尔最佳论文奖
几乎在同一时间,无问芯穹与上海交大、清华合作的 FlightVGM项目 在FPGA 2025会议上摘得最佳论文奖。这一成果将视频生成大模型(VGMs)的高效推理首次移植到 AMD V80 FPGA芯片,实现性能与能效的双重突破:
性能对比
技术路径
《南华早报》评论称,这一成果标志着中国AI硬件优化从“被动应对制裁”转向“主动技术革新”——工业级FPGA芯片的低成本、高能效特性,为AI算力提供了新的范式。
美国对华芯片禁令的核心逻辑是“掐住算力咽喉”,但中国团队正通过以下路径打破这一困局:
软硬协同优化:
Mooncake
FlightVGM
开源生态反制CUDA垄断:
非对称竞争策略:
美国依赖“芯片堆砌”提升算力,而中国通过 “低比特训练”“MoE架构”“FPGA加速” 等技术路径,以更少资源实现更高效率。例如:
《华尔街日报》分析称,中国团队的突破暴露了美国技术霸权的脆弱性:
算力不再依赖单一芯片
成本优势形成壁垒
彭博社指出,这些成果标志着全球AI竞赛的“范式转移”——未来比拼的不再是芯片制程或参数规模,而是软硬件协同优化能力。正如清华大学教授章明星所言:“我们证明了,即使在芯片被限制的情况下,中国仍能通过系统级创新,让现有硬件发挥超出设计预期的潜力。”
从DeepSeek的低成本训练模型到Mooncake的存算分离架构,再到FlightVGM的FPGA逆袭,中国AI团队正以“软件定义硬件、生态反制垄断”的独特路径,重塑全球AI算力竞赛的规则。这场静默的技术革命,不仅是中国对技术封锁的回应,更可能成为全球AI产业民主化的新起点——当算力不再被芯片巨头垄断,AI的未来将真正属于所有创新者。