去年DeepSeek R1的论文刚出来时,引起英伟达短期大跌,我说是跌错了,因为这个开源模型其实是利好,加速了技术扩散,整个模型还是基于GPU的。
前几天DeepSeek刚发的Engram架构,我认为是不亚于R1的优秀论文,但却是对GPU真正的利空。因为它实现了将常识性的内容分流到CPU上,让GPU专注于深度思考,需要世界知识时再去CPU调用,大幅提升了模型的计算效率。
消融实验发现用20%的参数记忆知识,80%的参数计算推理,性能达到最佳,例如简单的问题“法国的首都是哪里?”,普通模型得GPU算到第20层才知道答案是巴黎,Engram模型在第2层去CPU查个表,就心里有数了。
xueqiu.com