作者|包永刚
编辑|王亚峰
“2021年有一段时间,十多位投资人仿佛听到了什么召唤一样,密集地找到我,希望我去创业做DPU芯片。”一位业界大拿说,“我把这些邀约都拒掉了,还告诉找我的投资人们,DPU不是一个值得资本蜂拥而上的赛道。”
于是那些犹豫不前、拿不定主意的投资人们,果断放弃了充满未知的DPU赛道。在他们眼中,投DPU无论是风险指数,还是认知门槛,都超出了他们所能掌控的范畴。
而有一部分真正懂行的芯片老炮儿们,也对DPU的未来充满悲观,他们认为:“多数DPU创业公司,要不死掉,要不被公有云巨头收购。”
即便是一些对DPU颇为乐观的技术专家,他们也预测DPU创业公司至少要死掉90%。
一位投资人笑言,“按照目前的情况看,在2024年第一代产品没出来前,DPU创业公司的壁垒来自人民币。DPU公司烧钱的速度很快,融钱多的可以多撑几年,钱不多的可能今年就会出现资金问题。”
DPU没有统一的标准,需要与云计算基础设施紧密绑定,产品的通用性问题,没有明确的大客户,这些都是DPU创业不被看好合理的理由。
镜子的另一面。是那些目标笃定且不失有一丝赌徒心态的VC,他们坚定看好数据中心对于DPU需求的确定性,用重金去争抢优质DPU项目,并相信DPU这座深矿,是可以用金钱和时间凿开的。
以更长远的视角看待DPU目前所遇到的挑战,似乎也并非无解。
“短期看来,DPU确实面临比较大的挑战。但产品经过几代的迭代,熬过完全由软件定义硬件的转折点之后,总能有跑出来的DPU公司。”拥有20多年芯片行业经验的Winnie说。
对于吃螃蟹者而言,试错的成本不高,但错过的成本极高。面对新事物,有时候需要先行动,后思考的魄力。
“我们本来想一举拿下两家业界比较被看好的DPU公司。当时即便是早期投资,竞争也非常激烈,最后浑身解数也只投进去了一家。”一位投资了DPU创业公司的投资经理杰克如此描述当时的情况。
另一位同样投资了DPU公司的投资人艾伦认为,“DPU融资的火热,说明市场的不确定性问题已经解决,接下来这个赛道还会出现几个独角兽。”
DPU投资热的象征性信号,是连续三次获得腾讯投资的云豹智能,在成立不到两年的时间里,于6月完成新一轮融资后估值达到了90亿元,成为国内DPU创业赛道的首个独角兽。
一面是冰,一面为火。
DPU创业,在两种价值观的拉扯下,到底走在一个错误的方向?还是奔跑在黄金赛道?
外患:最大需求方,不买DPU
DPU创业公司的产品,到底应该卖给谁?他们所设想中的目标市场,几乎都是云计算。
但用得到DPU的云巨头,早已开始自给自足。
在这种买卖环境下,即便是英伟达这样的芯片巨头,也接连在DPU上碰壁。
“需求存在是真的,但市场上的DPU方案性能能否满足云大厂的需求,这要打一个问号。退一步讲,即便能满足,也不一定能轮得到第三方创业公司来满足。”业内人向雷峰网感慨道。
目前亚马逊云和阿里云早已拥有了基于自研DPU的系统,谷歌云则与英特尔合作开发IPU,百度云、字节跳动、腾讯云也都在自研DPU。
大公司对实打实的技术需求的敏感度,往往是最敏锐的。
“当公有云厂商要管理遍布全球的上百万台服务器,数据密集型计算越来越多时,传统以CPU为中心的计算体系架构无法适应这一趋势。”云计算专家李明(化名)对雷峰网表示,“因此,超大规模的数据中心需要新型的处理器提升云计算系统的效率。”
2013年,享誉虚拟化开源社区的极客安东尼加入了AWS,2014年,另一位令虚拟化开源玩家们仰止的大神张献涛加入阿里云。
两位虚拟化领域的关键人物加入两大公有云公司之后,相继开始尝试用软硬件融合的方式去解决大规模云计算面临的虚拟化资源损耗、大量数据与延迟的剪刀差等问题。
DPU的雏形,就在这些实际诉求下,孕育而出。
它诞生于创业公司Fungible之手,成名于英伟达CEO黄仁勋之口。
2019年,英伟达斥资69亿美元收购Mellanox,这是当时英伟达史上最大规模的收购案。完成收购后,英伟达很快就基于Mellanox的成果,在2020年推出两款DPU。
黄仁勋发布DPU时说,当下的数据中心是由软件定义,这使得数据中心更加灵活的同时也产生了巨大的负担,数据中心基础架构的运行消耗20%-30%的CPU核心,因此需要新的处理器——DPU。
英伟达迅速带火的DPU概念,也成为了提供DPU的业界标杆,却没能迅速获得大量订单。
“英伟达第一代BlueField DPU几乎没有客户,到第二代的时候,我判断应该也不太会有人会买单。到了第三代,性能参数看起来很厉害,应该能吸引一些云厂商。“李明说道。
“设计一款DPU如果不懂软件和业务需求,很容易把DPU做成一个大而全的产品,但即便如此,也很难做一个通用DPU。”
李明的经验表明,在一些极简的场景中,参数强大的DPU可以发挥作用,但云计算是一个复杂的系统,没有与软件充分融合,看起来强大的性能很难发挥出来,实际场景中的性能可能会不到宣称性能的25%,这就很难在拥有独特软硬件架构的云计算系统中大规模应用。
多位芯片专家证实:"英伟达前两代DPU几乎不能用。"面对这个挑战,英伟达在迭代DPU的过程中找云厂商进行了很多深入沟通。但深入沟通也没办法完全了解云计算厂商的需求,这也导致了英伟达DPU目前还只有少量客户,没有标杆性大客户。
在英伟达加速迭代DPU之时,AWS的Nitro系统和阿里云神龙架构进阶的产物CIPU(Cloud infrastructure Processing Units),已经在其各自的系统中展现出优势。
但摆在以英伟达为代表的DPU提供者们面前的挑战,除了Nitro和CIPU是系统级的优化,不是单纯的硬件加速之外,还有难以破解的稳定性问题。
李明指出,“当出现异常的时候,如果是购买的DPU,首先要排除并非软件问题,才能联系芯片提供商进一步解决问题,这不仅会拉长解决问题的周期,还可能为了解决1个问题制造出8个新问题。另外,购买来的DPU是一个黑盒子,很难满足不断迭代的软件需求。”
但云计算巨头与大部分公司情况并不相同。在通信和HPC领域拥有丰富经验的边缘智芯首席架构师李甫表示:“云计算大厂IT成本占比非常高,对数据和基础设施的把控非常严格,再考虑到数据中心架构变革等因素,所以头部厂家一定会坚定地自研DPU;但大部分企业市场,IT建设成本不到公司支出10%,对基础设施需求更多的转向软件定义和稳定性,交付趋于一体化交付,所以企业市场将是DPU和数据芯片的一个核心机会。“
“博通收购VMware就是为了进一步加强该领域的领先优势。接着可能就是HCI公司对DPU公司的收购。”李甫判断。
投资人艾伦说,“我们投资DPU公司时还没有DPU的概念,但我们判断数据中心的流量越来越大,需要智能网卡缓解数据中心的压力,再加上看好创始团队,没有犹豫就进行了投资。”
投资人杰克认为,“DPU的需求确实存在,公有云和私有云两块市场就足够巨大,我们相信一定能有DPU公司能生存下来,当然这也需要时间去证明。”
内忧:DPU的业内争议
创立之初没有DPU概念,在DPU概念火热之后主动或被动归入DPU的创业公司,也直接导致了虽然都可以称之为DPU芯片,但各家的技术路线并不相同,产生分歧自然不可避免。
有没有通用DPU?
细数国内外备受资本青睐的DPU创业公司,其核心创始团队几乎都有丰富的网络芯片相关经验的成员,来自像博通、思科、华为、中兴通讯等业界知名公司。
比如国内备受投资人看好的星云智联核心团队是原华为成建制的团队离职创业,云豹智能核心团队有多位前博通员工,还有阿里云神龙团队成员。
Winnie解释,数据中心的网卡在25G以下时,并不需要智能网卡(SmartNIC),CPU就足以解决所有问题,但随着网卡升级到25G及以上,CPU就难以处理如此大的流量。
李甫认为:“随着数据中心网卡向100G演进,DPU做的最多的工作应该是将进入数据中心流量的分流,包括流量的中断、管理和路径优化,我认为DPU应该是一个总线型芯片。但问题是,如果DPU要替换的是网卡,价格怎么可能比网卡便宜?”
“以智能网卡的思路创业做DPU,我只能祝他们好运。”李明认为,“以智能网卡卸载的思路去做DPU,实际上是没有了解清楚病因就开始下药,DPU不止有卸载,更重要的是软硬件的融合实现云计算系统的效率提升。”
Winnie的观点是,“DPU与智能网卡的核心差别是定价问题,既然DPU更贵,自然要能干更多的事情,产品形态也从分立的形式变成了集成的SoC。英特尔提出的IPU概念,就很符合云服务提供商的诉求,借助IPU,云服务提供商可以把自己的运营管理软件和租户的应用软件分离,将网络、安全、存储、管理等业务都卸载到DPU,不需再依赖CPU,还能同时提升虚拟化、存储和安全等性能,云服务提供商可以成为一个超级用户。”
“现在一个最大的问题是,DPU没有一个业界共识,也没有组织在推动。”李甫认为。
“业界对DPU的芯片架构认识趋于一致,必要的四个大子系统:通用的CPU子系统,可编程的快速数据面,NVMe/RDMA/安全/压缩等加速引擎,再加上高速IO与存储接口子系统。”Winnie认为。
这就衍生出业界争议的一个话题,到底有没有通用DPU?
“如果以DPU做云计算管理的角度切入,就要对云计算的分布式系统比较熟悉,这就会成为一个应用驱动型芯片,我认为应用型驱动的DPU没有前途,而以网络路径规划的思路有很大的机会。”李甫说。
支持李甫观点的多位芯片业界资深人士也表示,DPU是一个底层的基础设施,不会呈现给开发者,所以DPU和云计算的基础设施的捆绑非常紧密,而各大云计算巨头的基础设施,经过多年的发展,软硬件也都发展的各有侧重点,这就意味着很难有通用的DPU芯片,芯片不能做到通用就很难覆盖成本,实现盈利和生存,所以DPU创业要不就死掉,要不就会被收购。
还有业界资深人士质疑,所谓的通用DPU,到底是DPU还是一个更大的CPU?为什么通用DPU公司有七八成员工都在负责软件适配工作?
Winnie认为这也合理,“刚开始,DPU最关键的是能够用起来,所以比拼的实际是对软件的理解和部署,这时候一定是DPU提供方去适配云服务提供商的软件和需求,但经过持续的迭代,当硬件成本低到一定程度时,比如从2000元降到200元,风向就会逆转,就算那时候硬件产品不完美,功能不能完全满足,在成本的巨大优势下,软件也会主动去适配硬件。”
“按照过往的经验,市场或者选择一个大而全的产品,取其功能性能优势,或者选择一个功能一般但特别便宜的产品,取其成本优势。”Winnie进一步表示。
显然,在DPU还没有统一标准的2022年,业界处于要把DPU用起来的阶段,这时候需要的是硬件适配软件,也正是各种技术路线百家争鸣的时候。
技术路线之争,以及高估值隐忧
纵观DPU创业公司,可以将其分为三类,一类是传统芯片公司的思路,进行自下而上的加速,也就是做一个大而全的硬件,再构建上层软件加速业务,比如云豹智能。另一类是云巨头的思路自上而下,从业务和需求出发,用软件推动底层的硬件创新,比如大禹智芯。还有一类是网络切入,要进行业务卸载隔离,实现加速。
有意思的是,即便同是从网络出发做DPU,在具体技术路径的选择上也存在分歧,一位创业者评价同行,用网络的方法解决问题的思路是对的,但他们选择的技术是错的。
不同路径的创业者之间的分歧更为明显,有致力于提供通用DPU的创业者表示,其竞争对手的产品表明其并不理解云计算的需求,他们怎么可能成功。
从芯片从业者转到投资领域的翁理科认为,“我并不看好DPU这种高举高打的创业方式,这些创业公司在没有明确的客户时就进行创业,而DPU大都采用先进制程,成本巨大。并且,这类芯片更大的投入是后续的应用场景研发投入和生态建设,如果没有明确的大客户需求作为支撑,面对欧美的巨头竞争,这种投入就像一个黑洞,需要非常强大的融资能力源源不断地提供资金进行投入。”
“在没有明确的业务,也没有软件系统的前提下,就定义出一个硬件,这种创业的靠谱程度可想而知。”一位业界专家直言。
要知道,英特尔的IPU是和谷歌云合作。“如果没有明确的大客户,英特尔IPU的项目无法启动。”Winnie认为。
当然,这也反过来可以解释有腾讯投资的云豹智能率先成为了独角兽,有百度和美团投资的星云智联也更受投资者青睐。“这两家公司有更明确的客户,投资人也更敢投资。”多位业界人士相同的观点。
同样有确定性的还有中科驭数。“中科驭数的产品可能通用性一般,但其有明确的应用场景,金融等场景的客户也愿意为超低时延的DPU买单,这一市场可能不那么大,但解决生存问题不大。”看好中科驭数的投资人和业界专家说。
李甫说,“想要做通用DPU,但背后的投资人的标签又太明显,这怎么做?但没有标签,大家又不敢做,看起来像是个死循环。”
研究和接触了一些DPU公司,最终放弃投资DPU公司的创享投资投资总监刘凌韬表示,“DPU创业公司起点就是5-6亿,芯片流片验证大都要到2024-2025年,面对目前尚还未确定的几个技术路线,在当前这个赛道热度极高的背景下我们很难平衡估值与公司实际价值之间的关系,最终我们没能投资DPU公司。”
“DPU公司的估值消化确实是个问题。”还有几位投资人也表达了对DPU公司高估值的担忧。
无论是资本的看好与犹豫,还是创业公司之间的相互质疑,都不能掩盖一个事实,DPU预示着数据中心架构的变革。
挡不住的数据中心架构变革
“云计算基于传统IT架构发展起来,但如今传统IT硬件和软件已经满足不了云计算发展的需求,这时候就需要对传统软硬件进行革新。”李明认为,“云计算会对传统IT行业进行重构。”
这个判断也能说明DPU火热的核心。
今年阿里云发布CIPU的时候,就给出了明确的判断,CIPU将成为云计算3.0时代的核心。
如今的数据中心架构,是以CPU为核心,DPU的出现,让CPU不再是中心,云计算提供者可以成为超级用户,通过DPU去管理数据中心的计算、网络、存储,提升效率,这种变化具有革命性的意义。
用一个形象的比喻来解释传统数据中心与云服务提供商数据中心架构的不同,传统的数据中心就像是家庭场景,客厅、厨房、餐厅都在一个大的区域内,有一个明确的主人(即CPU)。而云服务提供商的数据中心则像是酒店,客房、餐厅是分开的,酒店客人和工作人员也同样分开,数据中心的运营者借助DPU能够更高效管理酒店,CPU只为客人服务。
这就意味着,在阿里云和AWS的数据中心,CPU、GPU、存储、网络等资源都会成为CIPU和Nitro的外设。服务器中主板的设计也会发生改变。雷峰网了解到,虽然阿里神龙服务器的外形和传统的服务器一样,但实际主板的设计,以及内部组件的连接方式都都已经发生变化。
“DPU进入数据中心,不仅能帮云计算提供者解决已知的问题,还能解决很多未来很多麻烦的事情。”Winnie如此判断。
李甫认为,“这种架构的变化能够让云服务提供商有更大的话语权与强势的芯片提供商谈判,获得更多CPU的折扣。”
但一位任职于云计算头部公司的研发赵明(化名)却认为,“DPU不可能完全取代CPU,因此云计算服务商不一定能够获得商务的优势,但能够给CPU厂商提更多需求,这对云计算提供商而言最终还是性价比的提升。”
虽然业界普遍认为云计算巨头们自上而下做DPU,比初创公司自下而上做DPU成功的概率更高,但无论如何,数据中心架构的变迁,已经成为确定的事实。
DPU的话题不止于创业成败,其发展也有更多可以讨论的话题,如果你对DPU感兴趣,或者是从业者,欢迎添加文章作者微信BENSONEIT(注明来意),让我们进行更深入的交流。