一场始于云计算的软硬件变革,已经蔓延到了芯片行业甚至整个IT产业。没人能否认,新的大幕正徐徐拉开。
1.云厂商难抵挡的诱惑
自研DPU(Data Processing Unit),成为云厂商摆在台面上的要紧事。
国内外两家头部云厂商AWS和阿里云,在数年前不约而同踏入了同一条河流。2017年10月份,阿里云推出了神龙架构,同年12月,AWS推出Nitro,二者的目的都是为了减少虚拟化损耗,把服务器的所有底层资源充分利用起来。
阿里巴巴集团研究员、阿里云弹性计算产品线负责人张献涛表示,“过去云计算的硬件对于虚拟化技术的支撑非常少,效率非常低。比如它会有百分之十几到二十的性能损耗,百分之十几的资源损耗。从性价比上来讲,它和物理机相比直接损失二十到三十个点,这种情况下,其实只改软件和只改硬件其实都没有办法去解决这个问题。”
能否杜绝这种“浪费”,对于云计算厂商来说,可能就是下一次淘汰赛的入场券。
云厂商的种种动作也在印证着这个趋势,云厂商或多或少开始储备DPU资源,例如天翼云的紫金架构,腾讯云“水杉”“银杉”智能网卡以及智能网卡芯片“玄灵”,并且投资了DPU厂商云豹智能,华为的IN300/IN500产品,美团和百度先后投资了星云智联等。
公有云巨头或者有海量服务器及潜在应用场景的厂商们,纷纷通过自研和投资方式,参与到这场盛宴当中。
根据英伟达提供的数据,在NVIDIA BlueField DPU上运行vSphere,用的越多,省的越多。整个服务器效率方面会整体提升22%,在3年ROI角度测算带来5倍的投资回报率。
780台安装有NVIDIA BlueField DPU的服务器,相当于1000台安装有标准智能网卡的服务器。每台服务器的TCO(总体投入)可节省8200美元,3年内通过提升效率可节省180万美元。
而在云计算场景下,公有云厂商拥有数十万乃至上百万台服务器的数据中心,这是一笔稳赚不赔的买卖。
同时,从云计算竞争差异化的角度看,客户界面IaaS层资源趋于同质化,但在后台资源层面,具备DPU的云厂商,足以对没有DPU的厂商产生降维打击,这是战略竞争优势。
虚拟化是云服务的基础,没有虚拟化,就没有被抽象的资源池,云厂商也就不能在其上开展业务,由虚拟化带来的额外损耗在云计算初期不显,或者云厂商对此无能为力,随着现阶段云厂商由重规模扩张,到重视健康增长的转变,底层技术的优先级再度提高。
有意思的是,云厂商在推动DPU技术的早期,甚至还没有DPU的名称,大家在共同的大方向上默契探索,行业还没有开始收敛。
2、国外芯片厂商对DPU的布局
也正是如此,包括英特尔、英伟达、在内的国外芯片巨头纷纷布局DPU。分别来看,英特尔于今年的SixFive峰会上发布了其DPU产品——基础设施处理器(IPU)。IPU基于FPGA,旨在使云和通信服务提供商减少在CPU)方面的开销,充分释放CPU性能。
据悉,IPU提供的能力包括:通过专用协议加速器来加速基础设施功能,包括存储虚拟化、网络虚拟化和安全;通过把软件中的存储和网络虚拟化功能从CPU转移到IPU,释放CPU核心;允许灵活的工作负载分配,提高数据中心利用率;允许云服务提供商根据软件速度对基础设施功能进行定制化部署。
英特尔表示,服务提供商和企业正大量投资于超大规模数据中心,以便为云原生应用和微服务提供高效的计算,提供这些服务的应用程序必须能够访问高速、低延迟的存储和安全的网络基础设施。但是,虚拟交换、安全和存储等基础架构服务可能会占用大量CPU周期。
IPU则可加速网络基础设施,释放CPU内核,实现应用程序性能的提升。IPU使云服务提供商能够以软件级的速度定制基础设施功能部署,同时通过灵活安排工作负载,提高数据中心的利用率。
比起英特尔,英伟达在DPU市场的布局更早也更广。
2019年4月,英伟达宣布以69亿美元收购数据中心网络公司Mellanox,这直接提升了英伟达在DPU市场的能力,因为Mellanox在智能网卡市场可谓是龙头。
在Mellanox硬件的基础上,英伟达在2020年推出了两款DPU产品:BlueField-2与BlueField-2X。BlueField-2集成NVIDIAMellanoxConnectX-6 Dx智能网卡,结合Arm内核,实现完全可编程,提供200Gb/s的数据传输率,加快了数据中心安全、网络和包括隔离、信任根、密钥管理、RDMA/RoCE、GPU交换、弹性块存储、数据压缩等功能。
BlueField-2X具有BlueField-2的全部关键特性。另外,BlueField-2X还利用NVIDIAAmpere 架构的GPU进行了了AI功能增强。使用NVIDIA第三代TensorCore,可利用AI助力对服务器进行实时安全性和管理分析,识别可能导致机密数据失窃的异常流量和侵犯主机内存的恶意活动,并可进行动态安全协调并自动响应。
今年4月的GTC大会上,英伟达又发布了BlueField-3DPU。这是首款为AI和加速计算而设计的DPU,可助力各企业在任何规模的应用上实现业内领先的性能和数据中心的安全性。这款DPU针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。
据悉,一个BlueField-3DPU所提供的数据中心服务可相当于多达300个CPU核才能实现的服务,从而释放CPU资源来运行关键业务应用。
除此以外,Broadcom、Marvell等国外芯片巨头以及Fungible、Pensando等国外芯片创企均参与DPU赛道。
3、中国DPU市场CAGR超100%、市场空间达240亿
DPU作为云端主力芯片,用量与服务器规模几乎相当。
头豹研究院预测,中国DPU市场规模从2022年超10亿美元增长到2025年近40亿美元(约人民币240亿元),复合年增速CAGR达112%。此外,2027年全球数据中心加速器市场价值可达530亿美元(CAGR近44%),DPU增速有望高于行业。
三类企业积极布局:
2020年中国DPU市场约8800万美元,主要由英伟达等外国公司占据。行业良好前景吸引到三类企业涌入:
①芯片公司:如英特尔、英伟达、华为海思、博通、 Marvell等
②创新公司:如左江科技旗下北中网科技、中科驭数、芯启源等
③其他科技巨头:如阿里巴巴、腾讯、亚马逊、谷歌等
DPU的制程挑战略低,适合新入局者,需要结合上层应用需求,给到垂直行业企业更多业务机会,科技巨头可能会更倾向于通过收购、生态等方式参与。
同时,我国在数据中心规模、增速和用户数量相较于国外有优势。因此国产创新企业投资机会更佳。
4、国内DPU厂商的三重难关
1)资本关
受大环境影响,2022年的资本市场更为冷静,而DPU仍处于烧钱阶段,不具备持续融资能力的DPU厂商,或许成为最先被淘汰的一批。
多家DPU厂商都表示,短期内还会有融资计划,相比其他领域的投融资项目,DPU厂商受到的影响较小,大概率今年会有一个回落,但幅度不大。
“在芯片行业里,如果不是头部企业,懂行业的投资者是不会投的,因为二三线的芯片公司大部分很难为投资者带来回报。”云豹智能创始人萧启阳表示。
他解释:“在美国,过去十年间从创业到上市的芯片公司寥寥可数,因此大部分投资者都只能希望其投资的芯片创业公司被已上市的芯片公司收购,从而获得回报。而在国内,芯片行业的企业并购非常罕见,大部分投资者只能通过其投资的公司上市来获取收益。而芯片行业相对其他行业来说,投资周期很长,而财务投资者首先会关心的问题是项目回报多大,如何退出、时间多长、风险多高,如果一个项目的投入需要等10年才能获得回报,并且还有很大的不确定性,大部分的投资者都不会考虑的。”
“做像DPU这样的大芯片,除了购买IP、流片等研发费用,还需要至少300-400人以上的硬件、软件和技术支持等高端技术专家持续多年投入,加上新产品的开发和产品迭代,花费至少需要20亿以上人民币。我们面对的不单是国内市场,还有海外市场。”他补充道。
DPU厂商不能只看资本运作,更要看重产业资源。云豹智能的投资方包括了中芯国际、红杉资本、深创投、腾讯等,腾讯是云豹的第一大外部股东,连续三轮都投资了云豹智能。资本投资人及产业投资人希望云豹成为“中国的博通”。
DPU厂商估值的水涨船高,也让一部分投资者慎重考虑是否入局和追投。另一位投资者认为,“现在(DPU公司)看上去显得有点贵,但是高速增长能够消化的话,也没有问题。历史经验证明,融资融得好的企业,未必是最后的赢家,”
他认为,对于现阶段的DPU厂商来说,VC的钱比客户的钱更好拿,但融资和营收是两码事,未来几年,行业会明显更加关注营收,关注企业自身是否有造血能力。
李爽也提到,“从资本市场来讲,DPU市场不像去年那么火,但是从另外一个角度,用户层面的情况要比去年好,很多客户已经看到了这个产品并且愿意去尝试。”
2)产品关
“没有”,若论商业化的成熟DPU产品,李爽给出了他的答案。
“DPU现在在云计算领域的迭代速度还是有点快,这么快的迭代速度,对于硬件来讲并不划算,大家都希望场景和需求达到一个相对成熟的状态之后,再将产品完善,我认为会在2024年左右。”
他进一步指出,“DPU行业不同公司的视角不同,做出来的效用或者结构可能不一样,但条条大路通罗马,新产品就是不断探索的过程,DPU还没有一个事实标准。”
目前云厂商和芯片厂商都以FPGA为主,好处是灵活可编程,减少试错成本,DPU厂商希望借此把软件和业务先打通,但是FPGA不是DPU的成熟形态,其性能、频率等都受到限制,ASIC是公认的下一代DPU形态。
天翼云资深研发专家、自研DPU技术负责人刘禄仁提到,“未来DPU大规模上量的话,肯定是ASIC化的产品,从功耗、成本还有性能来算,对云厂商应该是最优解。当然要达到ASIC化,肯定针对的目标场景业务要成熟”。
国内有DPU厂商已经开始裁员,也有DPU厂商的技术方案出现反复,前期硬件设计没有考虑周全的情况下,当网络带宽等指标进一步增长,只能推翻硬件重来,是一笔不小的成本损耗。现阶段相较于同期网卡型产品,DPU的成本估计在3到5倍之间。
目前,中国DPU创业公司大多做的并不是真正的DPU大芯片,而是基于FPGA的解决方案,就算有计划做芯片的,也只是做某单一功能的加速芯片,不少厂商希望分步探索,直至最终大芯片目标的实现。
一张芯片或卡卸载计算、存储和网络等负载,还是多张芯片或卡分别卸载,有本质差别。云豹智能此前用了不到一年的时间推出了一款基于FPGA的DPU解决方案,包含硬件及软件,投入了几十位技术人员去开发。
而目前云豹智能正在开发DPU大芯片,投入数百人力,相对于FPGA方案,其芯片功耗及成本都可降低一半以上,性能可提升3-4倍,通用性、灵活性、可编程性和易用性也有加强,这块DPU大芯片将于明年量产。
“美国已经实现了,中国的厂家也在学习,亚马逊(自研)、微软(FPGA)、Google(FPGA)都实现了,Google也知道用FPGA不能持续,才让Intel帮他们合作一颗芯片。”Kenyon说。英特尔和谷歌合作的IPU(Infrastructure Processing Unit,基础设施处理单元),也希望做ASIC化的大芯片。
3)客户关
客户也是DPU行业的一个大问题,按理说,云厂商是DPU的大客户,然而云厂商都倾向于自研,他们并不想等待通用产品,而是在自己的云场景下做最优适配,这也与AWS和阿里云的示范效应息息相关。
一位云计算行业高管认为,“DPU创业厂商很难成功,因为他们对于客户业务的理解,对于整个软件栈的控制,作为一家芯片公司很难做到。”
“别人能做,我也能做”,云厂商走上软硬一体自研自用的方向,受伤害最大的是芯片厂商们。
许多DPU厂商希望与云厂商沟通合作,一是做技术和需求上的交流,二是为了潜在的销售机会,而云厂商确定自研之后,厂商销售产品的意愿便少了许多。
张献涛表示,云计算提供了一个天然的场景,从软件到硬件再到上层服务,都是云计算公司在做,DPU创新之所以难,是因为单独软件公司、硬件公司很难结合在一起,很难对客户业务有深度的了解,技术的积累和认知也需要有一个过程。
今年6月份,阿里云推出了云基础设施处理器CIPU,它将取代CPU成为新一代云计算体系架构的核心。“CIPU是云计算软硬体系中的一个核心关键点,基于CIPU,我们会推动从数据中心底层到硬件体系的变革,更好适配数据中心‘风火水电’的标准”,张献涛说。
在最近举办的2022 re:Invent上,AWS Nitro推出了v5版本,晶体管数量增加一倍,内存性能提升50%,带宽提升两倍,相比于前一代产品,Nitro将显著改善延迟30%,同时每瓦性能提高40%,PPS提高60%。
也有观点认为,目前国内很多DPU创业公司已放弃云客户,是因为无法满足云厂商业务的需求。举一个最简单的例子,如何在芯片架构和配合的软件上支持在云上的热迁移功能?如果连这方面的经验都没有,做出来的DPU方案是很难成功的。
与此同时,DPU的场景也在向云计算之外发展,例如电信、安全和金融等。一些DPU选择了先在某些行业立足,譬如中科驭数选择了金融场景。信创场景也是国内DPU厂商的一个方向,DPU与数据紧密关联,硬件级的安全也有政企客户买账。
现阶段,不论是先选择行业,还是先打造产品,都需要不断地磨合与调整,行业格局尚未形成。
5、来路与出路
DPU行业正处于类似的竞合状态,在这个时间点,有必要重新思考来路与出路——厂商做DPU应该补足哪些短板,又该如何推动DPU的进一步发展?
李爽谈到,DPU厂商竞争的压力更多来自己身,大家都在埋头做自己的产品,当然非要说竞争的话,市场上看得到的竞争更多的是融资上的竞争。
刘禄仁表示,DPU厂商的认知是最大的门槛,云计算业务比较复杂,大家对需求的理解不同,虽然每一家技术演变都殊途同归,但毕竟每家都会有各种特点或差异,这是最主要的门槛。同时DPU不止用在数据中心,端网协同、5G场景、边缘场景也有需求,需求更加发散化。
同时他也提到,做芯片本身的门槛就比较高,DPU涉及到计算、存储、网络三个大方面,不仅有传统芯片设计里的验证驱动算法,还涉及到业务软件协议栈和用户程序等,比如AI芯片更多是一个单模块的功能点,DPU芯片软硬都要协同,让原本门槛很高的芯片开发,又拔高到一个新的维度。
Kenyon也给出了类似的答案,一家芯片创业公司是否能成功,其中一个必要条件为其团队是否做过类似的芯片。很多创业者连从研发芯片到量产以及运营一家企业需要多少人、多少时间、多少钱等问题都不清楚就开始创业,也不知道能为客户带来多大的价值,这样很难成功。
而关于DPU和其将影响的未来,张献涛从云计算的角度思考,以设计一个超级计算机的视角来看,底层技术变成一个完全软件定义的技术栈,软件定义数据中心以前是点状的改变,但是这些点状变成一个线、面的时候,它会带来新的革命。
相比于过去CPU发展历史上的缺位,中国云计算和海外云计算的行业差距并不大,在一些领域实现并跑,而由云计算场景推动的DPU软硬件变革中,新的历史正在写就。
来源:研报院,钛媒体,中国软件网
文章内容来自网络,如有侵权,联系删除、联系电话:023-85238885
参与评论
请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。
评论区