速度：大模型推理的下一个 Scaling Lawvia www.tilert.ai | LoopDNS资讯播报

Skip to main content

18 hours ago

速度：大模型推理的下一个 Scaling Law

via www.tilert.ai
Telegraph

速度：大模型推理的下一个 Scaling Law

一、延迟正在成为新的智能 LLM 服务化以来，推理系统的核心矛盾已经经历了几次迁移。最早的问题，是如何让超大规模模型真正运行起来。随后，行业开始追求单位成本下更高的请求吞吐，更大的 batch、更深的队列，以及多级 KV cache，逐渐成为推理系统的核心设计方向。但实时 AI 交互正在改变这一切。