FlashLabs Chroma 1.0 发布GitHub README 披露了模型结构：Reasoner 基于 Qwen2.5-Omni-3B，Backbone/Decoder 基于 Llama3，音频 codec 采用 24kHz 的 Mimi；项目声明模型语言为英文、许可证为 Apache-2.0

10:14 · Jan 23, 2026 · Fri

FlashLabs Chroma 1.0 发布

GitHub README 披露了模型结构：Reasoner 基于 Qwen2.5-Omni-3B，Backbone/Decoder 基于 Llama3，音频 codec 采用 24kHz 的 Mimi；项目声明模型语言为英文、许可证为 Apache-2.0。FlashLabs 于 2026 年 1 月 22 日宣布开源发布 Chroma 1.0，定位为“端到端、实时、speech-to-speech”的语音 AI 模型，并提供个性化语音克隆能力

Chroma 以“原生语音”方式工作，试图绕开传统“ASR→LLM→TTS”级联链路带来的延迟；其宣称端到端首响应时间（TTFT）低于 150ms，并在接入 SGLang 后可做到约 135ms。配套技术报告将关键机制归因于交错的文本-音频 token 调度（1:2）与流式生成；摘要给出的实验指标包括 Real-Time Factor（RTF）0.43，以及在说话人相似度上相对“人类基线”提升 10.96%。

Github