智谱推出 GLM-5.1 高速版，称输出速度达 400 tokens/s5 月 22 日，智谱宣布面向部分企业客户开放 GLM-5.1 高速版 API，模型名为“glm-5.1-highspeed”

17 hours ago

智谱推出 GLM-5.1 高速版，称输出速度达 400 tokens/s

5 月 22 日，智谱宣布面向部分企业客户开放 GLM-5.1 高速版 API，模型名为“glm-5.1-highspeed”。智谱官方文档称，该版本是 GLM-5.1 的高速版本，模型输出速度达到 400 tokens/s，并仅向 BigModel 开放平台的部分企业客户定向开放。该速度属于厂商披露口径，实际体验仍取决于任务类型、上下文长度、并发状态与网络环境。

GLM-5.1-highspeed 由智谱 GLM 团队与 TileRT 团队联合打造，优化重点放在推理引擎、调度系统和底层基础设施。官方说明称，团队针对 GLM-5.1 的结构重写核心推理路径，并通过动态批处理、请求合并、KV 缓存调度、推理集群部署和负载均衡优化，降低高并发场景下的尾延迟。

TileRT 在技术博客中表示，其核心思路是减少传统推理框架中 kernel 启动、同步和内存往返带来的固定开销，将更多调度前移到编译期，并让任务执行流长期驻留在 GPU 内部。该方向主要服务于低延迟场景，包括 Coding Agent、实时交互、实时语音、动态 UI 生成和多 Agent 并行推演等应用。

glm