Google发布针对大模型推理与向量检索的内存瓶颈的量化算法TurboQuant

TurboQuant先对输入向量做随机旋转并完成主体量化,再用1-bit的QJL对残差做校正,以同时控制均方误差和内积失真;论文将其描述为一种适合在线部署、数据无关、并在理论上接近信息论下界的量化方法。

Google主要使用Gemma和Mistral,并在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER和L-Eval等长上下文基准上评估该方法。按官方博文披露,TurboQuant可将KV cache内存压缩至少6倍,在无需训练或微调的条件下将KV cache量化到3比特,并在相关下游任务上保持结果;4比特版本在NVIDIA H100上计算attention logits时,相对32比特未量化keys可获得最高8倍加速。论文摘要使用了更谨慎的学术口径,称3.5 bits per channel可实现“absolute quality neutrality”,2.5 bits per channel仅有轻微质量下降。

TurboQuant指向向量检索场景。官方称,该方法在高维向量搜索中相较PQ和RabbiQ取得更高召回,并将索引构建的预处理时间压到接近零。就产业含义而言,这更像是一项基础设施效率技术:它直接作用于长上下文推理的显存压力、注意力计算开销和向量数据库的内存成本,而不是直接改变模型能力上限。Google在展望部分已将其应用前景指向Gemini一类系统和大规模语义检索,但目前公开材料仍以研究博客、预印本和会议展示为主,因此产品级收益仍取决于后续工程集成验证。

turboquant-redefining-ai-efficiency-with-extreme-compression
arxiv
 
 
Back to Top