DeepSeek开源周第二天：DeepEPDeepEP 专为混合专家（MoE）和专家并行（EP）而定制的通信库

02:46 · Feb 25, 2025 · Tue

DeepSeek开源周第二天：DeepEP

DeepEP 专为混合专家（MoE）和专家并行（EP）而定制的通信库。它提供了高吞吐量和低延迟的全对全 GPU 内核，也称为 MoE 分发和组合。该库还支持低精度操作，包括 FP8。
为了与 DeepSeek-V3 论文中提出的组限制门控算法保持一致，DeepEP 提供了一组针对非对称域带宽转发（例如将数据从 NVLink 域转发到 RDMA 域）优化的内核。这些内核提供高吞吐量，使它们适用于训练和推理预填充任务。此外，它们还支持 SM（流多处理器）数量控制。
对于对延迟敏感的推理解码，DeepEP 包含了一组使用纯 RDMA 的低延迟内核，以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法，该方法不占用任何 SM 资源。

来源：DeepSeek / Github