DeepSeek 开源周第三天：DeepGEMM发布，面向Hopper架构的FP8矩阵计算库实现2.7倍性能突破DeepSeek团队近日发布专为NVIDIA Hopper架构打造的DeepGEMM高性能计算库，该库基于DeepSeek-V3提出的精细化缩放方案，实现了FP8精度矩阵乘法的极致优化

01:21 · Feb 26, 2025 · Wed

DeepSeek 开源周第三天：DeepGEMM发布，面向Hopper架构的FP8矩阵计算库实现2.7倍性能突破

DeepSeek团队近日发布专为NVIDIA Hopper架构打造的DeepGEMM高性能计算库，该库基于DeepSeek-V3提出的精细化缩放方案，实现了FP8精度矩阵乘法的极致优化。通过独创的CUDA核心双级累加、FFMA指令交织优化和完全JIT动态编译技术，在H800显卡实测中，其64x2112x7168矩阵运算速度达206TFLOPS，较CUTLASS 3.6基准实现最高2.7倍加速。该库创新支持混合专家（MoE）模型的连续/掩码两种分组计算模式，单核代码仅300行却突破传统模板限制，尤其适用于大模型推理中的预填充和解码场景。开发者可通过Python接口直接调用，其轻量化设计已开源在GitHub平台，MIT许可证允许商业应用。

来源：DeepSeek / Github