FlashLabs Chroma 1.0 发布

GitHub README 披露了模型结构:Reasoner 基于 Qwen2.5-Omni-3B,Backbone/Decoder 基于 Llama3,音频 codec 采用 24kHz 的 Mimi;项目声明模型语言为英文、许可证为 Apache-2.0。FlashLabs 于 2026 年 1 月 22 日宣布开源发布 Chroma 1.0,定位为“端到端、实时、speech-to-speech”的语音 AI 模型,并提供个性化语音克隆能力

Chroma 以“原生语音”方式工作,试图绕开传统“ASR→LLM→TTS”级联链路带来的延迟;其宣称端到端首响应时间(TTFT)低于 150ms,并在接入 SGLang 后可做到约 135ms。配套技术报告将关键机制归因于交错的文本-音频 token 调度(1:2)与流式生成;摘要给出的实验指标包括 Real-Time Factor(RTF)0.43,以及在说话人相似度上相对“人类基线”提升 10.96%。

Github
 
 
Back to Top