DeepSeek“开源周”进入第四天,这次开源了3个仓库。
第一个是双向管道并行算法DualPipe,专注于优化大型模型训练中的计算与通信效率,其核心在于通过重叠前向和后向计算-通信阶段,减少传统管道并行中的“气泡”时间。
第二个是专家并行负载平衡器EPLB,解决专家并行中 GPU 负载不均的问题,确保资源均利用。
第三个仓库是计算-通信重叠分析,用于观察DeepSeek-V3训练和推理中的性能瓶颈和优化效果。
来源:
外汇交易员 /
DeepSeek /
Github /
Github /
Github