Qwen 开源 Qwen3-ASR 与 Qwen3-ForcedAligner

Qwen 团队在 2026 年 1 月 29 日宣布开源 Qwen3-ASR 系列(1.7B、0.6B)及 Qwen3-ForcedAligner-0.6B,并在 GitHub 提供代码与推理/部署示例;模型权重同步发布到 Hugging Face/ModelScope,项目采用 Apache-2.0 许可证。

Qwen3-ASR 将语种识别与 ASR 合并为单模型“all-in-one”流程:官方说明其覆盖 52 个语种与方言,其中包括 30 种语言与 22 种中文口音/方言;推理侧同时支持离线与流式,并面向语音、歌唱及带 BGM 的歌声等音频类型。

配套的 Qwen3-ForcedAligner-0.6B 采用非自回归(NAR)时间戳预测方式,用于文本-语音对的强制对齐;官方给出的语种覆盖为 11 种语言,并宣称其时间戳精度在评测中优于多种主流强制对齐方案。效率指标方面,技术报告给出的示例为:Qwen3-ASR-0.6B 在 128 并发下可实现“1 秒转写 2000 秒语音”,平均首 Token 延迟(TTFT)最低 92ms;同时报告与仓库将 1.7B 版本描述为开源模型中的 SOTA,并称其可对标最强商业 API(均为自述评测结论)。

工具链方面,仓库提供 qwen-asr PyPI 包(Transformers 与 vLLM 两种后端)、本地 Gradio Web UI 与浏览器麦克风流式 Demo、以及 Docker 镜像与 vLLM 服务化命令封装,目标是覆盖批处理、高并发与在线服务场景。


huggingface
 
 
Back to Top