智谱推出 GLM-5.1 高速版,称输出速度达 400 tokens/s
5 月 22 日,智谱宣布面向部分企业客户开放 GLM-5.1 高速版 API,模型名为“glm-5.1-highspeed”。智谱官方文档称,该版本是 GLM-5.1 的高速版本,模型输出速度达到 400 tokens/s,并仅向 BigModel 开放平台的部分企业客户定向开放。该速度属于厂商披露口径,实际体验仍取决于任务类型、上下文长度、并发状态与网络环境。
GLM-5.1-highspeed 由智谱 GLM 团队与 TileRT 团队联合打造,优化重点放在推理引擎、调度系统和底层基础设施。官方说明称,团队针对 GLM-5.1 的结构重写核心推理路径,并通过动态批处理、请求合并、KV 缓存调度、推理集群部署和负载均衡优化,降低高并发场景下的尾延迟。
TileRT 在技术博客中表示,其核心思路是减少传统推理框架中 kernel 启动、同步和内存往返带来的固定开销,将更多调度前移到编译期,并让任务执行流长期驻留在 GPU 内部。该方向主要服务于低延迟场景,包括 Coding Agent、实时交互、实时语音、动态 UI 生成和多 Agent 并行推演等应用。
glm
5 月 22 日,智谱宣布面向部分企业客户开放 GLM-5.1 高速版 API,模型名为“glm-5.1-highspeed”。智谱官方文档称,该版本是 GLM-5.1 的高速版本,模型输出速度达到 400 tokens/s,并仅向 BigModel 开放平台的部分企业客户定向开放。该速度属于厂商披露口径,实际体验仍取决于任务类型、上下文长度、并发状态与网络环境。
GLM-5.1-highspeed 由智谱 GLM 团队与 TileRT 团队联合打造,优化重点放在推理引擎、调度系统和底层基础设施。官方说明称,团队针对 GLM-5.1 的结构重写核心推理路径,并通过动态批处理、请求合并、KV 缓存调度、推理集群部署和负载均衡优化,降低高并发场景下的尾延迟。
TileRT 在技术博客中表示,其核心思路是减少传统推理框架中 kernel 启动、同步和内存往返带来的固定开销,将更多调度前移到编译期,并让任务执行流长期驻留在 GPU 内部。该方向主要服务于低延迟场景,包括 Coding Agent、实时交互、实时语音、动态 UI 生成和多 Agent 并行推演等应用。
glm