【文/观察者网 吕栋】
今年4月,《中共中央 国务院关于加快建设全国统一大市场的意见》正式发布,其中指出,要通过建设全国统一大市场,让资源、要素流动更畅通,全面推动中国市场由大到强。
随着中国加快迈入数字经济时代,算力正成为新的生产要素,人工智能计算中心、超算中心以及全国一体化算力网络枢纽节点等,正作为国家新型算力基础设施加快建设。
在各种算力设施如雨后春笋般涌现的背景下,要想优化算力资源配置,突破单点算力极限,提高数据流通效率,建设全国统一的算力网络和算力大市场势在必行。
5月底,鹏城实验室的“中国算力网(China Computing NET,C²NET)”计划首次公开。该计划提出要构建自主可控的算力网络技术体系,要“像建设电网一样建设国家算力网,像运营互联网一样运营算力网,让用户像用电一样使用算力服务”。
华为计算产品线总裁邓泰华
鹏城实验室主任、中国工程院院士高文指出,建设中国算力网,要通过突破异构兼容、算网融合、云际协同等关键核心技术,实现全国大型算力的协同调度和高效计算,推动国家“东数西算”战略重要节点互联互通,更好地满足中国经济社会高质量发展的新需求。
如今,这一全球首创、致力于打造中国数字经济算力底座的重大计划,迈出标志性一步。
中国算力网开始落地
“今天,我们迎来一个重要的历史时刻。”
在6月15日举办的华为伙伴暨开发者大会上,鹏城实验室主任、中国工程院院士高文,科技部高新技术司副司长梅建平,华为计算产品线总裁邓泰华,共同见证了中国算力网—智算网络一期的上线。
中国算力网—智算网络一期的成功搭建,标志着中国算力网建设开始正式落地,而智算网络的构建基础则是各地建成的人工智能计算中心。
当前,人工智能已成为数字经济高质量发展的引擎,人工智能计算中心作为人工智能算力基础设施受到全球广泛重视,美国、欧洲、日本等国家和地区都在积极推动人工智能计算中心的建设,中国作为人工智能大国自然也不例外。
过去一年多,基于昇腾AI集群,鹏城云脑II和武汉人工智能计算中心陆续上线,拉开了中国各地建设人工智能计算中心(AICC,Artificial Intelligence Computing Center)的序幕。目前,全国已经有二十多个算力领先城市,基于昇腾AI软硬件平台和华为集群计算解决方案,建设了人工智能计算中心。
在各地人工智能计算中心陆续建成后,搭建中国算力网-智算网络的条件也随之成熟。
作为中国人工智能行业的重要参与者,昇腾AI其实很早就已洞察到算力网络的发展趋势。
邓泰华告诉观察者网,中国已建成电力网、高铁网、通信网,未来肯定也会建成算力网。这个算力网就是把当前各地独立建设的算力资源,尤其是大型算力资源,通过连成一张网,实现最大化数据流通共享,再基于各个地方共享的算力资源,提供更高效的算力开发方案。
2021年12月,在科技部指导下,鹏城实验室、华为、百度、讯飞等近20家单位,联合发起人工智能算力网络推进联盟,推进各地上线的AICC连接成网、上线运行。
如今,随着中国算力网-智算网络一期正式上线,各地的人工智能计算中心也顺利连接成网,可动态实时感知算力资源状态,实现统筹分配和调度计算任务,构成区域内可感知、可分配、可调度的AI算力资源,以“一网络”实现“三汇聚”:
算力汇聚:不同人工智能计算中心之间高速网络互联,实现算力合理调度和资源弹性分配,提升各人工智能计算中心的利用率,还可实现整体能耗节省。 数据汇聚:多方合作,推进AI领域的公共数据开放,基于人工智能计算中心汇聚高质量的开源开放的AI数据集,促进AI算法开发和行业落地。 生态汇聚:采用互联、应用接口等标准,强化跨区域科研和产业协作,为所有用户进行AI应用创新提供更多的资源选择和更便捷的合作方式,加速产业聚合,激活产业共融共生。
智算网络为大模型发展带来新机遇
当前在AI领域,人工智能大模型具备更强泛化能力适配多个场景,发展大模型已成为产学研各界共识。而智算网络汇聚了大量算力和数据,为大模型的训练创造了天然有利的条件。
这里以一个盘古多语言大模型的真实任务,演示用户如何提交任务、协同多个算力中心资源进行训练。
邓泰华告诉观察者网,目前部分用户确实还在基于自建算力训练大模型。但未来随着大模型越来越复杂,数据量越来越大,如果企业和科研机构都靠自有算力去训练,可能无法提供足够的算力,训练时长也会大幅增加。另外,即便用户自建了足够大的算力,但计算业务天然存在波动,仍会出现能耗闲置,并不是一种最经济的选择,也不符合国家“双碳”的目标。
因此,包括人工智能计算中心、超算中心等大型算力基础设施,天然适合集约化建设。
通过算力网络协同调度,在A中心算力波峰时,可以将排队任务转移到算力波谷的B中心计算,削峰填谷,多计算中心都可以保持算力高利用率,将计算中心的能耗充分利用起来,从全局和长远角度看,是进一步提升电能利用率、降低碳排放的有效路径。
后续,不仅是智算中心联网,各地超算中心、一体化大数据中心算力枢纽,都可以并入中国算力网,实现数据、算力、算法、模型、服务等多要素共享与流通,用户也可以按需申请、按需使用,在全国范围内调集算力来训练大模型。
对于大模型训练来说,算力十分重要,AI计算框架的支撑同样必不可少。
在极致性能上,昇腾AI框架MindSpore支持全自动并行,可以把大模型拆分到不同的算子,训练过程中大图可以拆分成小图,小图可以拆分成不同的计算单位,全部实现自动化,不需要人工干预,可以最大化的利用算力资源,提升整个模型的训练效率。
为了更好的使能大模型发展,昇腾AI还构建了从规划、开发到产业化的大模型全流程使能体系:包括建立大模型沙盘,规划并牵引产业界真正需要的大模型;推出大模型开发使能平台,让开发者能够快速完成大模型开发;在大模型训练出来后,携手业界伙伴共建大模型产业联盟,让更多伙伴基于大模型进行场景化方案联创实现产业化推广。
过去一年,中国产业界基于昇腾智算中心先后发布一系列有影响力的大模型,包括华为云.盘古系列大模型;在NLP领域,鹏城实验室发布了鹏程.盘古;百度发布鹏城-百度.文心;智源研究院发布悟道;多模态领域,中科院自动化所发布全球首个三模态大模型紫东.太初;在生物制药领域的鹏程.神农等等。
对于大模型来说,最为关键的还是产业化落地。
2021年底,基于全球首个智能遥感框架武汉.LuoJia和全球首个三模态大模型紫东.太初,华为携手伙伴成立了智能遥感开源生态联盟和多模态人工智能产业联盟,如今半年多时间过去,两大联盟已经开花结果,陆续孵化出多个行业解决方案。
例如,千博信息基于紫东.太初开发了手语多模态模型,开创性地实现手语动作与示意图片和文字的联动,让初学听障人士更加方便的理解,帮助他们解决沟通、就业等一系列难题。
这也充分体现出AI成果转化中的社会价值。
更重要的是,在大模型产业化落地过程中,可以以更丰富的数据和参数、更泛化的应用场景,来反哺大模型基础能力,让大模型更智能、场景适用性更好,从而又可以对行业应用提供更大的支持,这样就能形成大模型创新、到应用、到迭代创新的产业正循环。
中国算力网建设仍有问题待解
随着中国算力网—智算网络一期正式上线,人工智能计算中心将不再“孤军奋战”,算力、大模型、数据集、行业应用等人工智能要素将充分流动共享,成为应对新需求的重要途径。
但对整个中国算力网的建设来说,似乎仍任重道远。
邓泰华告诉观察者网,建设中国算力网是一个持续迭代的过程,并不是静止的目标,未来需要经过持续优化、不断扩大范围的过程,所以目前的智算网络只是中国算力网一期,并且也只是以“鹏城云脑”作为核心节点,实现数个智算中心联网,以及最基本的任务编排调度。
未来发展方向,无疑是要让更多算力接入中国算力网。但要实现这个目标,似乎还有许多问题需要解决。
例如,算力网技术架构应该怎么规划,技术方案怎么实现?怎么保证算力相互连在一起,任务、资源可以共同调度,中间的时延怎么解决?不同的调度基于不同的需求,怎样做到全域的编排管理?统一调度对于单点数据中心怎么来对接?数据中心之间的传输怎么来配合?
邓泰华认为,如果把整个中国算力网作为一个大的体系来看,这个体系的技术架构如何规划创新,现在尚未成型,因为中国算力网是全球首创,所以并没有成型的先例可以参考。
今年2月,国家发展改革委、中央网信办、工业和信息化部、国家能源局四部门联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。
邓泰华指出,东数西算、东数西存乃至东数西训都有不同的应用场景,是一个大的体系规划。目前,东数西算、东数西存以及东数西训一体化大数据中心枢纽还处在规划阶段,部分地方刚开始启动建设还没有上线,而基于昇腾AI的智算中心已批次建成,目前实现9个城市的计算中心联网并上线。未来,随着一体化大数据中心上线,具备条件后也将并入中国算力网。