OpenAI 最近为其 Responses API 引入了持久 WebSocket 连接，通过优化基础设施来减轻涉及多轮工具调用的代理 AI 应用中的累积延迟

13:34 · Feb 24, 2026 · Tue

OpenAI 最近为其 Responses API 引入了持久 WebSocket 连接，通过优化基础设施来减轻涉及多轮工具调用的代理 AI 应用中的累积延迟。

这一进展在 GPT-5.3-Codex-Spark 公告中被列为核心工程特性。该模型与 Cerebras 合作开发，作为轻量级实时变体，其生成速度超过每秒 1,000 个 token。通过将持久连接与内部 API 优化相结合，OpenAI 报告往返开销减少了 80%，每 token 成本降低了 30%，首字时间（TTFT）提升了 50%。

这一转变解决了复杂代理循环中传统 HTTP 请求的结构性低效问题。在涉及数十轮规划和工具执行交互的工作流中，重复握手和完整上下文重传的成本会迅速累积。维持单个持久连接允许客户端传输增量输入并引用先前状态，以利用服务器端内存缓存。这种方法避免了完整历史记录的冗余传输，减轻了网络和计算负担。

OpenAI
Cline

​OpenAI 最近为其 Responses API 引入了持久 WebSocket 连接，通过优化基础设施来减轻涉及多轮工具调用的代理 AI 应用中的累积延迟

OpenAI 最近为其 Responses API 引入了持久 WebSocket 连接，通过优化基础设施来减轻涉及多轮工具调用的代理 AI 应用中的累积延迟