海南省竞扑体育科技有限公司海南省竞扑体育科技有限公司

GSE,给智算网络更多选择!临渊羡鱼

大模型需要大算力,GSE大算力需要大集群,算网大集群需要大网络!络更

GSE,给智算网络更多选择!临渊羡鱼

业界对此没有疑问,多选但选择什么样的GSE机间互联技术,却有着不同的算网临渊羡鱼技术实现路径。

是络更先入为主的InfiniBand,还是多选当前呼声很高的UEC;其实,我们有更多的GSE选择。在近日举行的算网“中国移动算力网络大会”上,中国移动副总经理高同庆宣布,络更对标国际主流的多选IB和UEC方案,形成中国自主的GSE技术体系--全调度以太网(GSE),今年将开展GSE中试,算网加速GSE关键技术和产业成熟,络更为标准开放的新型智算互联贡献中国方案。

有了IB和UEC,我们为什么还需要GSE?GSE将会给产业界带来价值?从理念到技术再到产品和应用的落地,GSE还需要迈过哪些门槛?

我们为什么需要GSE

在回答这个问题之前,不胫而走先让看看算力形态的变化。业界现在将算力分为通算、超算与智算,其中智算作为AI能力的主要载体,到2025年可能会占据新增算力的85%左右。也就是说智算将逐渐成为AI市场主流,作为智算的载体,智算中心的重要性就不言而喻了。

智算中心与传统数据中心存在很大不同,不仅体现在卡型、性能、功耗、算力密度等方面,主要由GPU服务器联网构成的智算中心需要完全不同的网络架构。当大模型训练时,并行计算节点越多,通信效率越重要,智算网络性能成为集群算力提升的老着脸皮关键。总结下来,智算中心网络要求很特殊,需要高带宽、零丢包、超低时延、高可用性,月级零故障。

简言之,我们需要新的网络架构。客观来看,英伟达主导的InfiniBand因其自身特性,是当前市场主流选择,但InfiniBand在产业开发性、部署成本方面非常不友好。还有很重要的一点,在云谲波诡的地缘政治环境下,产品与解决方案的可持续获得性也是个问题。

InfiniBand不行,刨根问底我们可以选另外一条技术演进路径,从底层革新传统以太网机制,同时又最大限度的利用以太网产业的开放性和成熟性。乱拳打死老师傅,这的确是个好主意!

从以太网这条技术路径来看,主要有两个流派。一种是采用大量的私有协议,自己做深度优化,性能的确是很强,国内有些云服务商走的是这条路;一种是用开源社区思路,“众人拾柴火焰高”,比如国内主导的GSE,是美国主导的UEC,都是这个思路。

但需要强调的是,UEC和GSE的先后关系。很多人先入为主的酸甜苦辣认为,我国在智算领域落后于美国,GSE是在拾UEC牙慧!但事实刚好与之相反。在2023年5月份,中国移动联合10余家中国企业率先发布全调度以太网技术架构(GSE)白皮书,这标志着GSE技术的确立。几个月之后,包括英特尔AMD、HPE、Arista、Broadcom、思科、Meta和微软等主导成立的超级以太网联盟(UEC)才成立。

GSE能够给行业带来什么?我觉得最重要的有两点:

第一,给了智算中心服务器互联更多选择。在云谲波诡的地缘政治环境下,可选择性、身经百战可获取性比性能、成本本身更为重要。况且,GSE也在快速的走向成熟,形成标准开放的技术体系!

第二,给了中国AI产业路径更多选择。在先进算力芯片受限的前提下,我们只能通过别的方式来弥补,“以网强算”是个必然路径。但网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”。我们单纯的从这个公式来看:集群有效算力={ GPU单卡算力*总卡数*线性加速比*有效运行时],前面这几个变量我们都受限,更需要做好GSE这篇文章。

GSE应该怎么去落地?

首先,我们要有自信。AI特别是老师宿儒AGI就是未来的方向,在这点上,是没有任何疑问的。在AGI落地的技术路径上,“以网强算”是个必然选择。

我们有全球最好的网络基础设施,有全球最好的移动通信网络基础设施,有全球技术最为领先的400G光传送网。当然,我们也完全可以有最优的智算中心网络,或者智算中心机间互联技术生态。在挑战或者取代IB的这条道路上,UEC可以做到的,GSE为什么不能做到呢?

其次,产业链形成合力。孙凝晖院士说的好,国内智能计算生态孱弱,更为严重的是国内企业之间山头林立,其实在机间互联技术选择上也一样。自始至终比如在今年的云网智联大会上,就有类似的声音出来,认为GSE是中国移动主导的,是个个体行为,UEC才是主流。

从全球来看,特别是从用户的CAPEX来看,UEC的确是远远超过GSE;但国内企业在UEC中到底有没有,有多少话语权,这都是疑问。对于GSE而言,的确是中国移动倡导成立的,但GSE发展离不开开放性,GSE推进计划现在已经有40多家成员,既要最大限度兼容以太网生态,更要最大限度包容产业生态。

还是要小步快跑。智算中心的闻风而逃发展和演进,和传统的CT行业是不同的,标准是个很有意思的问题,是在发展中不断地凝聚共识、优化技术路径;小步快跑才能形成可持续的社区繁荣生态。从GSE的发展历程来看,也的确在朝着这个方向前行。特别是在上个月,《新型智算中心以太网物理层安全(PHYSec)架构白皮书》的发布,说明了GSE产业链的努力。

最后,当然也是最重要的,要用“诚意”和“信心”去培育、催熟产业链。所以,在今年的中国移动算力网络大会上,当高总宣布要开展GSE“中试”时,产业链还是很受鼓舞的。可能有些读者对于“中试”不是多事之秋很清楚,翻译过来的意思就是“现网试商用”!这也凸显了中国移动在推动民族智算和AI产业发展中的央企担当。当然,我们也相信中国移动具备这样的能力,无论是从传送网100G到400G的跃迁,还是从移动网从3G5G的嬗变,或亦是承载网从PTN到SPN的沿革,中国移动都已经证明了自己。GSE,我们相信同样如此!

赞(88534)
未经允许不得转载:>海南省竞扑体育科技有限公司 » GSE,给智算网络更多选择!临渊羡鱼