【文/观察者网 吕栋】
“这是阿里算力攻坚的重要突破。”
11月3日,在2022云栖大会上,阿里云智能总裁张建锋宣布,经过一年业务验证,阿里首颗针对云场景研发的CPU“倚天710”已大规模应用。这是中国首个云上规模应用的自研CPU,而在未来两年,阿里云20%新增算力都将使用自研芯片。
一年前刚亮相时,倚天710的跑分表现是,性能超出业内标杆20%,能效比提升50%以上。在实际应用中,这颗“为云而生”的CPU表现更加亮眼,倚天710云实例与飞天操作系统及CIPU融合,在数据库、大数据、视频编解码、Web服务器等核心场景中的性价比提升30%以上,单位算力功耗降低60%以上。
搭载倚天710的服务器
在数字经济时代,算力就是生产力。无论是线上购物、视频直播还是自动驾驶、科学研究等,整个社会对算力的需求空前,这也推动了云计算的爆发式增长。在当前国内“缺芯少魂”的状况下,阿里自研CPU的突破可以说是为中国云计算产业补上一块重要短板。
“云计算的发展进入了新的阶段,芯片、操作系统和上层应用的原生融合已是大势所趋,未来十年,软硬件一体化的自研计算体系是云服务商的立身之本,只有在核心技术和产品的研发上持续创新才能抢占定义权。”张建锋表示。
水滴石穿,非一日之功。阿里的算力攻坚之路早在十几年前便已开启。
为中国云计算奠基
2007年,正值阿里业务高速发展期,淘宝网用户体量急剧增长,尤其是脉冲流量带来极大的不确定性,业务底层的IOE(IBM小型机、Oracle数据库、EMC存储)技术架构捉襟见肘,解决业务算力不足的问题似乎只有扩大采购规模这一条路。
2008年,就在阿里提出“去IOE”,用云计算来为庞大复杂的业务搭建一套全新技术架构时,震惊了互联网所有人。阿里内外,对云计算的争议不断。但就在2009年,阿里启动操作系统“飞天”的研发,并成立阿里云,迈出算力和前沿科技探索的第一步,也拉开了中国云计算的序幕。
飞天操作系统用分布式架构替换了传统集中式架构,其目标就是将遍布在全世界的服务器连接在一起,这套架构不仅要让阿里巴巴内部业务实现算力自由,也要让算力成为一种可通用、可以在线获取的资源。然而,分布式系统比传统业务系统复杂度更高,当服务器数量扩大到数千台时,系统性能、稳定性和运维等方面的技术挑战就会指数级上升。
彼时,先发者美国一直扮演着云计算引领者的角色,而中国云计算基础设施落后,生态系统建设乏善可陈。这似乎在昭示着中国即将“一步慢,步步慢”。就在这种自我怀疑中,飞天5K的发布让国际云计算顶尖技术的目光汇聚到了西子湖畔。
2013年5月,阿里云开发完成自有大规模部署系统和异常故障自动化处理系统等,大幅提升了对集群的全局掌控力,在全球范围内首次实现单一集群5000台服务器的规模,并率先对外提供这一能力,随后短短数月再次突破单集群10K。
这也意味着阿里云早期的算力底座正式落成。2017年,阿里云第一代神龙架构问世,使用软硬融合、软硬件协同设计的模式,实现性能的0损耗,首次让云计算的算力潜力得到彻底释放。
向“硬核”进发
技术上不断攻坚克难,让阿里云连续多年稳坐亚太第一、全球前三云计算厂商的位置。但云计算业务的成功,只是阿里算力长征的微小一步,这家公司开始向更底层的硬件和芯片发起了挑战。
2017年达摩院成立,明确在AI、量子计算、自动驾驶、芯片和5G等前沿技术领域展开探索互联网巨头向硬科技转身的强烈决心开始向外界传递。
与此同时,万亿美元的云计算市场正迎来一个新的发展阶段,“去IOE”之后,硬件体系正迎来新一轮的变革。2018年,阿里成立平头哥半导体公司,开始向下定义硬件和芯片,也意味着算力的深阶进发。
2019年,平头哥发布阿里第一颗芯片含光800,实现在AI场景深度定制,创造了性能和能效比的两项第一。2021年,阿里正式发布首个通用CPU芯片倚天710,性能超过业界标杆20%,能效比提升50%以上。更为关键的是,倚天710针对云场景设计研发,其在设计之初就兼顾了易用性,为复杂芯片应用落地难排除了巨大障碍,也为倚天710实现对外规模化商用奠定了重要一步。
与此同时,神龙计算平台也在不断迭代,已成长为一个全新的管控和加速中心,名为CIPU,它打破了以CPU为中心的传统云计算架构,带来向上接入操作系统,向下对数据中心的计算、存储和网络资源快速云化并进行硬件加速。
2022云栖大会现场
今年云栖大会上,基于倚天710的云实例与飞天操作系统及CIPU融合,首次实现了芯片、计算架构及操作系统的协同优化,算力性价比提升超30%,单位算力功耗降低60%,倚天710成为中国首个云上大规模商用的自研CPU,也是阿里在算力关键技术上的重大突破。
算力的长征
过去十多年,数字经济的飞跃式发展将人类社会带到了算力时代,算力作为新型生产力,成为社会经济发展的新引擎,也被认为是衡量国力的重要指标。
中国已在这场竞争中走在世界前列,截至2022年6月,中国在用数据中心机架总规模超过590万标准机架,服务器规模约2000万台,算力总规模超过150 EFlops,位列全球第二。
算力发展迅猛的背后,离不开芯片、服务器、数据中心和云计算等算力产业链的日臻完善,云计算重构了算力体系,为未来算力增长提供新的动力。然而,未来算力的终极形态远未到来,这也驱使科技企业不断向新的技术发起挑战。
在底层计算体系结构上,阿里展开了新型计算范式的探索。
2021年,达摩院成功研发全球首款基于DRAM的3D键合堆叠存算一体芯片。用存算一体芯片攻克传统冯·诺依曼架构存储计算分离的性能瓶颈,打造一个新型计算体系结构。这一成果有望为未来AI场景提供更高效率的算力。
面向更长远的计算需求,阿里还在持续布局量子计算,努力颠覆传统计算的潜力。基于新型超导量子比特fluxonium,阿里量子实验室成功设计并制造出两比特量子芯片,实现单比特操控精度99.97%,两比特iSWAP门操控精度最高达99.72%,取得此类比特全球最佳水平。
算力攻坚的长征,这才刚刚开始。