适配国产芯片涉及昇腾、寒武纪、海光三家主流厂商,各厂商在适配新FP8时均存在设计不足,需与DeepSeek配合进行软件层面的适配。
昇腾采用达芬奇框架,计算模式为顺序性任务执行,原设计以国际主流算法模式为主,scaler更新为固定间隔(如每隔128次计算更新一次)。而新FP8要求每完成一个任务小节即进行动态scaler更新(无固定规律),因此需DeepSeek在需要缩放时给出信号(包括是否缩放、缩放阶段及幅度),昇腾系列芯片接收到信号后主动触发硬件scaler计算适配。
寒武纪采用chiplet技术,将浮点计算与指数部分分离(即n加2模式),但新FP8要求指数与计算部分一体以保证计算效率,因此寒武纪需新增一个8位的指数运算模块以修正这一设计。
若DeepSeek不提供信号,昇腾910B或C的推理效率将大幅下降,因此DeepSeek自身也需进行适配。
昇腾采用达芬奇框架,计算模式为顺序性任务执行,原设计以国际主流算法模式为主,scaler更新为固定间隔(如每隔128次计算更新一次)。而新FP8要求每完成一个任务小节即进行动态scaler更新(无固定规律),因此需DeepSeek在需要缩放时给出信号(包括是否缩放、缩放阶段及幅度),昇腾系列芯片接收到信号后主动触发硬件scaler计算适配。
寒武纪采用chiplet技术,将浮点计算与指数部分分离(即n加2模式),但新FP8要求指数与计算部分一体以保证计算效率,因此寒武纪需新增一个8位的指数运算模块以修正这一设计。
若DeepSeek不提供信号,昇腾910B或C的推理效率将大幅下降,因此DeepSeek自身也需进行适配。
针对市场误关联情况,需澄清:DeepSeek新版本发布慢与昇腾芯片技术问题无直接关联。实际是,昇腾系列芯片本身不存在重大质量问题,但华为在昇腾系列芯片(尤其是910B)售后存在严重问题,包括售前夸大良品率、交货周期等信息,售后联系困难且态度恶劣,导致多家公司计划砍掉910B订单。此后华为改善售后态度,开始上门服务并道歉,DeepSeek也在此列。