梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
从游戏、短视频到人工智能、工业仿真再到元宇宙,这些当下风口都离不开同一种芯片——
GPU。
根据IDC数据,2019年时我国AI市场每台服务器配置1-20个GPU,加权计算平均每台AI服务器配置8.02个GPU加速卡。另外GPU在所有加速卡类型里市场份额占91.9%。
这样的行业趋势下,除了GPU创业公司受资本热捧以外,CPU传统巨头英特尔也加速了在GPU上的布局。
今年以来,英特尔在GPU上的动作密度之高和力度之大不断刺激着业界的神经。
2月先是调整组织架构,正式成立加速计算系统与图形事业部(AXG)。
同时公布独立显卡Arc系列出货时间表,并放话今年要卖上400万张。
到4月,AXG部门负责人Raja Koduri升任执行副总裁,随后成立新的图形实验室。
5月初收购芬兰老牌GPU技术供应商Siru Innovations,吸收大批图形IP开发人才。
紧接着,在5月中旬的2022英特尔On产业创新峰会上,一款面向数据中心的多用途GPU全新发布。
这款代号Arctic Sound-M(简称ATS-M)的数据中心GPU已获得超过15款来自戴尔、Supermicro、思科、HPE、浪潮和新华三等合作伙伴的系统设计,让本就火爆的GPU市场竞争再次升级。
英特尔CEO帕特基辛格对GPU业务寄予厚望,称图形和加速计算将成为英特尔未来的主要增长点,预计2022年带来超过10亿美元的营收。
如何做到?
英特尔GPU,靠什么赢市场?
要回答这个问题,要从GPU本身的特点与时下行业趋势入手。
GPU与CPU相比更擅长并行计算,适合解决大规模加速、算力密集型问题,在万物数字化的浪潮中,大规模加速正是GPU行业火爆的关键。
横向看功能,图形计算(游戏、3D渲染)、数据处理(人工智能、工业仿真)、视频编码(直播、短视频)给GPU提出不同工作负载需求。
纵向看场景,云端、桌面PC、移动端手机、智能汽车、机器人和更多物联网设备对异构GPU的需求都在激增。
两个维度一交叉就产生大量细分需求,被不同产品分别占据,生态分散。
英特尔这次杀入GPU市场的思路很清晰,就是提供多用途融合的统一解决方案,通过降低异构开发成本、提升协作效率来重构生态。
芯片设计最核心的要看架构,英特尔于2020年架构日活动上首次公开了英特尔锐炬® Xe图形架构。
在Xe架构立项研发之初,英特尔就强调要在一种架构下实现4种微架构,同时面向集成显卡/入门级显卡、中端和发烧级显卡,数据中心GPU和超算GPU四个细分市场。
以最新发布的ATS-M数据中心GPU为例,可以更具体地看出这些设计思路和技术特色如何为行业提供统一的解决方案。
ATS-M的定位是一款专注于智能视觉云场景的多用途数据中心GPU,面向云游戏、媒体处理和传输、虚拟桌面基础设施和AI视觉推理四个场景。
英特尔预计智能视觉云市场规模到2026年将达到150亿美元。
ATS-M提供150W功率和75W功率两种版本,分别应对峰值性能和高密度需求。
比如在云游戏上,150W功率版可以更好运行3A大作,而75W版本通过一个平台满足跨智能手机和PC游戏的融合云游戏解决方案。
对于多媒体处理与传输,一个杀手锏是为该GPU配备了英特尔首款基于硬件加速的AV1编码器,速度上比软件编码要快上50倍。
而AV1编码与常见的H.264编码相比,同画质下压缩率又要高出30%。对于4K加速普及、8K也在路上的今天来说,编码速度和高压缩率节省的流量都极为关键。
对于拥有10万用户的媒体服务器,仅提高压缩率这一项每年就能减少2300万美元的运营成本。
虚拟桌面市场也随着远程办公需求的增加迎来了快速增长。
英特尔的这款数据中心GPU提供了灵活的虚拟GPU(vGPU)调度策略,让管理员能够单独微调GPU上每个虚拟机的运行指令。
并且,英特尔不会针对基于硬件的可扩展I/O虚拟化(SIOV)额外收取任何软件授权费,大大减少了相关提供商总体部署成本。
最后,AI视觉推理任务往往需要先对大量摄像头拍摄的视频做解码和预处理,再把数据传给AI模型进行下一步动作。
无论是工厂流水线上的零部件缺陷检测还是公共场合的人流管理都需要快速分析、快速决策。
戴尔在PowerEdge服务器上使用了集成两颗GPU的75W功率版本ATS-M。
以经典的ResNet-50模型的图像分类和目标检测任务为例,能够在计算和解码能力上实现很好的平衡。
一款GPU能否走入广泛的市场,除了硬件性能强大以外还离不开配套软件生态的支持。
英特尔的开源、基于标准的统一编程模型oneAPI,通过一套完整、可靠的工具包来完善现有编程语言和并行计算模型,让开发者设计出开放、可移植的代码,更大限度地利用多种CPU和GPU的组合,降低开发难度同时释放硬件的全部性能。
CPU与GPU通过oneAPI统一编程模型深度整合这一思路,还体现在超级计算机上。
美国阿贡国家实验室的下一代超算极光(Aurora)的安装情况也在英特尔峰会上首次展示。
极光超算将采用代号为Sapphire Rapids的英特尔至强CPU,和代号为Ponte Vecchio的英特尔数据中心GPU,双精度峰值计算性能超过每秒两百亿亿次,能支持更准确地进行气候预测以及发现应对癌症的新疗法等研发创新活动。
元宇宙、沉浸式体验,以及大规模的人工智能部署,都离不开对高性能GPU的依赖,也对未来图形处理产品提出了要求:高度视觉保真、优化人工智能、实现连续计算。
对于光线追踪和人工智能相信大家都很熟悉了,那么什么是持续计算?
英特尔现场演示的下一代云游戏方案Project Endgame就是一个很好的例子。
不同于以往的云游戏产品中本地硬件仅接收串流数据、充当显示器作用,而是云端和本地硬件协同工作。
这样应用程序可以充分利用软件基础设施层,使设备能利用网络中其他设备的计算资源,从而提供始终可用、低时延、连续的计算服务,降低对网络环境的需求,让云游戏进一步走向实用。
通过持续计算,用户可以在随身携带的小型设备上随时借用云端算力来运行复杂应用。
英特尔认为能理想地运行元宇宙至少还需要提高1000倍算力,在能制造出如此强大的个人设备之前,持续计算就是进入元宇宙的敲门砖。
英特尔第二次转型
从前面的介绍可以看出,英特尔现在已不仅是一家芯片巨头企业。
英特尔在2016年提出向“以数据为中心”转型,之后进一步明确了驱动数字化转型的四大超级技术力量方向,分别是:
四大超级力量不仅会带来对芯片的空前需求,它们之间的协作、相互增强更在各行业催生出多样的芯片应用场景。
英特尔将如何应对新一轮数字化转型这个关键时刻,在这次峰会上也给出了答案:
PC是数字活动的基础,至强处理器是计算和基础设施的基础,XPU战略和各种加速处理器,以及全栈软件优化方案,让4大超级力量具备高性能,易于部署,安全可靠,可扩展并持续创新,帮助客户解决当前问题,并保证未来可持续发展。
XPU战略指英特尔将重心从单独的CPU转移到跨CPU、GPU、FPGA和其他加速器的广泛产品组合。
其意义不仅在于英特尔自身拓展更多市场,还在于产品组合下不同架构芯片的协作能给用户带来更好的体验。
在这次峰会上,英特尔分享了更具体的做法和思考:打破组件的边界。
拿游戏来说,大型3D游戏存在这样一个现象:有的游戏更吃显卡,如更重画面效果的动作游戏。而有的游戏更吃CPU,如同屏角色很多的策略游戏。
英特尔通过DeepLink技术就可以打破组件的边界,根据实时运行情况在CPU与GPU之间动态分配功率,解决性能瓶颈,让同一台PC可以适应多种任务。
Deep Link技术的核心思想就是提升芯片之间、芯片内部各IP之间的深度协作。
除了动态功率共享外还有超级编码和超级算力两项特性。
超级编码让独立显卡与CPU中的核显配合,编码速度提升60%。
超级算力的原理也是如此,统一调度整个系统中所有AI引擎,性能提升24%。
个人PC上,仅CPU与GPU之间的配合就能带来如此收益。
那么数据中心服务器上搭载的更多类型芯片,在同一架构下协作将展示更多威力。
这次峰会上,英特尔除了GPU还发布了AI训练芯片Gaudi2、AI推理芯片Greco,以及公布了基于FPGA和ASIC的IPU(基础设施处理器)产品路线图都是XPU战略的体现。
作为芯片领域的元老级公司,英特尔十分看重构建开放生态,引领行业标准。
除了前面提到的oneAPI开源编程和AV1视频编码标准,还领导了芯片制造领域的高速通用芯粒互联标准UCIe。
UCIe意图推动芯粒(Chiplet)之间的互连标准,使未来异构的芯片IP封装能够封装在一起,延续摩尔定律。
为了这一愿景,英特尔还计划开放x86架构的IP授权,使客户能够在英特尔制造的定制设计芯片中混合x86、Arm和RISC-V等不同的CPU IP核。
这已经不是英特尔第一次转型了。英特尔CEO帕特基辛格指出整个产业又到了“战略转折点”的时候,这个转折点决定了未来可能更好或者更坏,企业需要在一个比较短的时间内做出明智的决策。
实际上“战略转折点”这个概念,就是英特尔第三任CEO安迪葛洛夫提出的,当时,他带领英特尔在混乱与危机中完成了从存储芯片向处理器的转型,才有了后来的引领半导体行业数十年。
如今事实证明了随着技术的飞速发展,以及对人类的影响更加深远,人类交互的方方面面都朝着以技术为中心的方向演进,“计算已成为我们与世界互动的方式”。
英特尔通过拓展智能芯片的深度与广度,构建更加开放的生态系统和软件解决方案,IDM2.0战略再一次找到了新的领跑点。
不得不说,这种识别变化的洞察力、以变应变的行动力,是最值得学习和借鉴的。
参考资料:
[1] IDC 《中国半年度加速计算市场(2021上半年)跟踪》