OpenAI 推出实时编程低延迟模型 GPT-5.3-Codex-Spark
2月12日,OpenAI 发布 GPT-5.3-Codex-Spark 研究预览版,定位为 GPT-5.3-Codex 的更小版本,也是首个面向 Codex “实时编码”的专用模型;官方称其在超低延迟硬件上可实现每秒超过 1000 tokens 的输出速度。
该模型作为与 Cerebras 合作的首个里程碑落地,运行在 Cerebras 的 Wafer Scale Engine 3(WSE-3)上;OpenAI 表示 GPU 仍是其训练与推理体系的基础,Cerebras 侧重补齐对极低延迟工作流的需求,并可在单一工作负载中与 GPU 组合使用。OpenAI 将其描述为更偏即时协作的模型:允许用户在生成过程中打断、重定向并快速迭代;默认工作方式更轻量,倾向做最小、定向修改,且不会自动运行测试,除非用户明确要求。
OpenAI 在 2026年1月14日宣布与 Cerebras 合作,为平台引入 750MW 的超低延迟算力,并称相关产能将分批上线直至 2028 年;本次 Codex-Spark 被 OpenAI 定义为该合作的首个落地节点。
OpenAI
2月12日,OpenAI 发布 GPT-5.3-Codex-Spark 研究预览版,定位为 GPT-5.3-Codex 的更小版本,也是首个面向 Codex “实时编码”的专用模型;官方称其在超低延迟硬件上可实现每秒超过 1000 tokens 的输出速度。
该模型作为与 Cerebras 合作的首个里程碑落地,运行在 Cerebras 的 Wafer Scale Engine 3(WSE-3)上;OpenAI 表示 GPU 仍是其训练与推理体系的基础,Cerebras 侧重补齐对极低延迟工作流的需求,并可在单一工作负载中与 GPU 组合使用。OpenAI 将其描述为更偏即时协作的模型:允许用户在生成过程中打断、重定向并快速迭代;默认工作方式更轻量,倾向做最小、定向修改,且不会自动运行测试,除非用户明确要求。
OpenAI 在 2026年1月14日宣布与 Cerebras 合作,为平台引入 750MW 的超低延迟算力,并称相关产能将分批上线直至 2028 年;本次 Codex-Spark 被 OpenAI 定义为该合作的首个落地节点。
OpenAI