Skip to main content

OpenAI 发布 MRC 超算网络协议OpenAI 于 2026 年 5 月 5 日发布 MRC(Multipath Reliable Connection)网络协议,用于提升大规模 AI 训练集群中 GPU 网络的性能与容错能力

  1. OpenAI 发布 MRC 超算网络协议

    OpenAI 于 2026 年 5 月 5 日发布 MRC(Multipath Reliable Connection)网络协议,用于提升大规模 AI 训练集群中 GPU 网络的性能与容错能力。该协议由 OpenAI 与 AMD、Broadcom、Intel、Microsoft、NVIDIA 等合作开发。

    MRC 的核心目标是降低训练网络中的拥塞、延迟波动和故障影响。OpenAI 称,该协议可将单次数据传输分散到数百条路径,并在微秒级绕过故障链路,从而减少同步预训练任务中 GPU 等待和训练中断的风险。

    该协议已部署在 OpenAI 最大规模的 NVIDIA GB200 超算系统中,包括位于得克萨斯州阿比林、由 Oracle Cloud Infrastructure 建设的 Stargate 站点,以及 Microsoft Fairwater 超算系统。OpenAI 表示,MRC 已用于训练多个 OpenAI 模型。

    OpenAI 同时将 MRC 规范通过 Open Compute Project 开放给行业使用。此举显示,超算网络正在成为前沿模型训练效率和稳定性的关键基础设施之一。

    来源:OpenAI