18 hours ago 速度:大模型推理的下一个 Scaling Lawvia www.tilert.ai Telegraph 速度:大模型推理的下一个 Scaling Law 一、延迟正在成为新的智能 LLM 服务化以来,推理系统的核心矛盾已经经历了几次迁移。 最早的问题,是如何让超大规模模型真正运行起来。随后,行业开始追求单位成本下更高的请求吞吐,更大的 batch、更深的队列,以及多级 KV cache,逐渐成为推理系统的核心设计方向。 但实时 AI 交互正在改变这一切。