Google发布针对大模型推理与向量检索的内存瓶颈的量化算法TurboQuantTurboQuant先对输入向量做随机旋转并完成主体量化，再用1-bit的QJL对残差做校正，以同时控制均方误差和内积失真；论文将其描述为一种适合在线部署、数据无关、并在理论上接近信息论下界的量化方法

15:25 · Mar 25, 2026 · Wed

Google发布针对大模型推理与向量检索的内存瓶颈的量化算法TurboQuant

TurboQuant先对输入向量做随机旋转并完成主体量化，再用1-bit的QJL对残差做校正，以同时控制均方误差和内积失真；论文将其描述为一种适合在线部署、数据无关、并在理论上接近信息论下界的量化方法。

Google主要使用Gemma和Mistral，并在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER和L-Eval等长上下文基准上评估该方法。按官方博文披露，TurboQuant可将KV cache内存压缩至少6倍，在无需训练或微调的条件下将KV cache量化到3比特，并在相关下游任务上保持结果；4比特版本在NVIDIA H100上计算attention logits时，相对32比特未量化keys可获得最高8倍加速。论文摘要使用了更谨慎的学术口径，称3.5 bits per channel可实现“absolute quality neutrality”，2.5 bits per channel仅有轻微质量下降。

TurboQuant指向向量检索场景。官方称，该方法在高维向量搜索中相较PQ和RabbiQ取得更高召回，并将索引构建的预处理时间压到接近零。就产业含义而言，这更像是一项基础设施效率技术：它直接作用于长上下文推理的显存压力、注意力计算开销和向量数据库的内存成本，而不是直接改变模型能力上限。Google在展望部分已将其应用前景指向Gemini一类系统和大规模语义检索，但目前公开材料仍以研究博客、预印本和会议展示为主，因此产品级收益仍取决于后续工程集成验证。

turboquant-redefining-ai-efficiency-with-extreme-compression
arxiv