Skip to main content

DeepSeek开源周第二天:DeepEPDeepEP 专为混合专家(MoE)和专家并行(EP)而定制的通信库

  1. DeepSeek开源周第二天:DeepEP

    DeepEP 专为混合专家(MoE)和专家并行(EP)而定制的通信库。它提供了高吞吐量和低延迟的全对全 GPU 内核,也称为 MoE 分发和组合。该库还支持低精度操作,包括 FP8。
    为了与 DeepSeek-V3 论文中提出的组限制门控算法保持一致,DeepEP 提供了一组针对非对称域带宽转发(例如将数据从 NVLink 域转发到 RDMA 域)优化的内核。这些内核提供高吞吐量,使它们适用于训练和推理预填充任务。此外,它们还支持 SM(流多处理器)数量控制。
    对于对延迟敏感的推理解码,DeepEP 包含了一组使用纯 RDMA 的低延迟内核,以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法,该方法不占用任何 SM 资源。

    来源:DeepSeek / Github