​OpenAI 最近为其 Responses API 引入了持久 WebSocket 连接,通过优化基础设施来减轻涉及多轮工具调用的代理 AI 应用中的累积延迟。

这一进展在 GPT-5.3-Codex-Spark 公告中被列为核心工程特性。该模型与 Cerebras 合作开发,作为轻量级实时变体,其生成速度超过每秒 1,000 个 token。通过将持久连接与内部 API 优化相结合,OpenAI 报告往返开销减少了 80%,每 token 成本降低了 30%,首字时间(TTFT)提升了 50%。

​这一转变解决了复杂代理循环中传统 HTTP 请求的结构性低效问题。在涉及数十轮规划和工具执行交互的工作流中,重复握手和完整上下文重传的成本会迅速累积。维持单个持久连接允许客户端传输增量输入并引用先前状态,以利用服务器端内存缓存。这种方法避免了完整历史记录的冗余传输,减轻了网络和计算负担。

OpenAI
Cline
 
 
Back to Top