Skip to main content

LoopDNS资讯播报

  1. 英伟达近期在OFC上披露的Scale-across层面以及下一代架构中的Dragonfly网络架构,具体有哪些变化?

    英伟达近期投资了20亿美元,其中一部分要求在美国本土生产CPO芯片以配合其CPO交换机。同时,英伟达已开始采用OCS交换机进行新架构的内部验证。预计F这一代,将通过名为Dragonfly的蜻蜓网络架构结合OCS来实现更高的数据交换效率,以替代当前的胖树 (Fat-tree)层级网络架构。

    当前胖树架构的特点是带宽无收敛,在一个集群内通过多层交换机互联,每张卡之间的带宽是对等的。然而,未来的AI网络中,物理距离上相邻的GPU之间存在更大的数据流量和更高的关联性,即数据的“局域性”。针对这种区域内的差异化,Dragonfly架构应运而生。它在特定区域内部署高带宽的交换机以实现高效交换,而在不同区域之间则通过OCS进行动态调度。这种分层设计类似于华为提出的 UB-Mesh方案,也是基于GPU数据的局域性进行区域化组网。

    目前,由于集群规模尚不够大,胖树架构凭借其强扩展性和通用性仍能满足需求。但随着未来集群规模和算力的持续扩张,胖树架构的互联效率和性价比将下降,设备复杂度和层级也会增加,因此网络拓扑架构的变革势在必行。根据与英伟达的交流,预计到2028年,至少部分场景下的下一代集群将采用这种新架构。