LoopDNS资讯播报
1_闪迪_SNDKMemory_The_Perfect_Storm_Jensen,_Engram,_and_the_After.pdf
去年De­e­p­S­e­ek R1的论文刚出来时,引起英伟达短期大跌,我说是跌错了,因为这个开源模型其实是利好,加速了技术扩散,整个模型还是基于GPU的。

前几天De­e­p­S­e­ek刚发的En­g­r­am架构,我认为是不亚于R1的优秀论文,但却是对GPU真正的利空。因为它实现了将常识性的内容分流到CPU上,让GPU专注于深度思考,需要世界知识时再去CPU调用,大幅提升了模型的计算效率。

消融实验发现用20%的参数记忆知识,80%的参数计算推理,性能达到最佳,例如简单的问题“法国的首都是哪里?”,普通模型得GPU算到第20层才知道答案是巴黎,En­g­r­am模型在第2层去CPU查个表,就心里有数了。


xueqiu.com
 
 
Back to Top