倚天屠龙!阿里首颗云CPU“倚天710”开始规模应用

吕栋
2022-11-04

      11月3日,在2022云栖大会上,阿里巴巴宣布,经过一年业务验证,阿里首颗针对云场景研发的CPU“倚天710”已大规模应用。这是中国首个云上规模应用的自主研发的CPU,而在未来两年,阿里云20%新增算力都将使用自主研发的芯片。

       这是阿里算力攻坚的重大突破。

      一年前刚亮相时,倚天710的跑分性能超出业内标杆20%,能效比提升50%以上。在实际应用中,这颗云CPU表现更加抢眼,倚天710与飞天操作系统及CIPU融合,在数据库、大数据、视频编解码、Web服务器等核心场景中的性价比提升百分之30以上,单位算力功耗降低百分之60以上。

       在数字经济时代,算力就是生产力,云计算的爆发式增长。在美欧联盟在高级芯片技术领域对中国进行围堵的情况下,阿里自研CPU的突破可以说是为中国芯片产业补上一块重要短板。

       愚公移山,水滴石穿。阿里的算力攻坚之路终于走到了春暖花开的时候。

       2007年,正值阿里业务高速发展期,淘宝网用户体量急剧增长,尤其是脉冲流量带来极大的不确定性,业务底层的IOE(IBM小型机、Oracle数据库、EMC存储)技术架构捉襟见肘,解决业务算力不足的问题似乎只有扩大采购规模这一条路。

       2008年,就在阿里提出“去IOE”,用云计算来为庞大复杂的业务搭建一套全新技术架构时,震惊了互联网所有人。阿里内外,对云计算的争议不断。但就在2009年,阿里启动操作系统“飞天”的研发,并成立阿里云,迈出算力和前沿科技探索的第一步,也拉开了中国云计算的序幕。飞天操作系统用分布式架构替换了传统集中式架构,目标就是将遍布在全世界的服务器连接在一起,这套架构不仅要让阿里巴巴内部业务实现算力自由,也要让算力成为一种可通用、可以在线获取的资源。但是,分布式系统比传统业务系统复杂度更高,当服务器数量扩大到数千台时,系统性能、稳定性和运维等方面的技术挑战就会指数级上升。

        就在这种自我怀疑中,飞天5K的发布让国际云计算顶尖技术的目光汇聚到了西子湖畔。

       2013年5月,阿里云开发完成自有大规模部署系统和异常故障自动化处理系统等,大幅提升了对集群的全局掌控力,在全球范围内首次实现单一集群5000台服务器的规模,并率先对外提供这一能力,随后短短数月再次突破单集群10K。

       2017年,阿里云第一代神龙架构问世,使用软硬融合、软硬件协同设计的模式,实现性能的0损耗,首次让云计算的算力潜力得到彻底释放。

       技术上不断攻坚克难,让阿里云连续多年稳坐亚太第一、全球前三云计算厂商的位置。但云计算业务的成功,只是阿里算力长征的微小一步,这家公司开始向更底层的硬件和芯片发起了挑战。

       2017年达摩院成立,明确在AI、量子计算、自动驾驶、芯片和5G等前沿技术领域展开探索互联网巨头向硬科技转身的强烈决心开始向外界传递。

       与此同时,万亿美元的云计算市场正迎来一个新的发展阶段,“去IOE”之后,硬件体系正迎来新一轮的变革。2018年,阿里成立平头哥半导体公司,开始向下定义硬件和芯片,也意味着算力的深阶进发。

阿里云CPU倚天710

图1. 阿里云CPU倚天710

       2019年,平头哥发布阿里第一颗芯片含光800,实现在AI场景深度定制,创造了性能和能效比的两项第一。2021年,阿里正式发布首个通用CPU芯片倚天710,性能超过业界标杆20%,能效比提升50%以上。更为关键的是,倚天710针对云场景设计研发,其在设计之初就兼顾了易用性,为复杂芯片应用落地难排除了巨大障碍,也为倚天710实现对外规模化商用奠定了重要一步。

       与此同时,神龙计算平台也在不断迭代,已成长为一个全新的管控和加速中心,名为CIPU,它打破了以CPU为中心的传统云计算架构,带来向上接入操作系统,向下对数据中心的计算、存储和网络资源快速云化并进行硬件加速。

       今年云栖大会上,基于倚天710的云实例与飞天操作系统及CIPU融合,首次实现了芯片、计算架构及操作系统的协同优化,算力性价比提升超30%,单位算力功耗降低60%,倚天710成为中国首个云上大规模商用的自研CPU,也是阿里在算力关键技术上的重大突破。

       过去十多年,数字经济的飞跃式发展将人类社会带到了算力时代,算力作为新型生产力,成为社会经济发展的新引擎,也被认为是衡量国力的重要指标。

       中国已在这场竞争中走在世界前列,截至2022年6月,中国在用数据中心机架总规模超过590万标准机架,服务器规模约2000万台,算力总规模超过150 EFlops,位列全球第二。

       算力发展迅猛的背后,离不开芯片、服务器、数据中心和云计算等算力产业链的日臻完善,云计算重构了算力体系,为未来算力增长提供新的动力。然而,未来算力的终极形态远未到来,这也驱使科技企业不断向新的技术发起挑战。

       在底层计算体系结构上,阿里展开了新型计算范式的探索。

       2021年,达摩院成功研发全球首款基于DRAM的3D键合堆叠存算一体芯片。用存算一体芯片攻克传统冯·诺依曼架构存储计算分离的性能瓶颈,打造一个新型计算体系结构。这一成果有望为未来AI场景提供更高效率的算力。

       面向更长远的计算需求,阿里还在持续布局量子计算,努力颠覆传统计算的潜力。基于新型超导量子比特fluxonium,阿里量子实验室成功设计并制造出两比特量子芯片,实现单比特操控精度99.97%,两比特iSWAP门操控精度最高达99.72%,取得此类比特全球最佳水平。

       算力攻坚的长征,这才刚刚开始。


相关阅读

加密货币交易所Coinbase报告的用户数量好于预期,尽管收入大幅下降

分享