DeepSeek 开源周第三天:DeepGEMM发布,面向Hopper架构的FP8矩阵计算库实现2.7倍性能突破
DeepSeek团队近日发布专为NVIDIA Hopper架构打造的DeepGEMM高性能计算库,该库基于DeepSeek-V3提出的精细化缩放方案,实现了FP8精度矩阵乘法的极致优化。通过独创的CUDA核心双级累加、FFMA指令交织优化和完全JIT动态编译技术,在H800显卡实测中,其64x2112x7168矩阵运算速度达206TFLOPS,较CUTLASS 3.6基准实现最高2.7倍加速。该库创新支持混合专家(MoE)模型的连续/掩码两种分组计算模式,单核代码仅300行却突破传统模板限制,尤其适用于大模型推理中的预填充和解码场景。开发者可通过Python接口直接调用,其轻量化设计已开源在GitHub平台,MIT许可证允许商业应用。
来源:DeepSeek / Github
DeepSeek团队近日发布专为NVIDIA Hopper架构打造的DeepGEMM高性能计算库,该库基于DeepSeek-V3提出的精细化缩放方案,实现了FP8精度矩阵乘法的极致优化。通过独创的CUDA核心双级累加、FFMA指令交织优化和完全JIT动态编译技术,在H800显卡实测中,其64x2112x7168矩阵运算速度达206TFLOPS,较CUTLASS 3.6基准实现最高2.7倍加速。该库创新支持混合专家(MoE)模型的连续/掩码两种分组计算模式,单核代码仅300行却突破传统模板限制,尤其适用于大模型推理中的预填充和解码场景。开发者可通过Python接口直接调用,其轻量化设计已开源在GitHub平台,MIT许可证允许商业应用。
来源:DeepSeek / Github