Qwen 开源 Qwen3-ASR 与 Qwen3-ForcedAlignerQwen 团队在 2026 年 1 月 29 日宣布开源 Qwen3-ASR 系列（1.7B、0.6B）及 Qwen3-ForcedAligner-0.6B，并在 GitHub 提供代码与推理/部署示例；模型权重同步发布到 Hugging Face/ModelScope，项目采用 Apache-2.0 许可证

13:16 · Jan 30, 2026 · Fri

Qwen 开源 Qwen3-ASR 与 Qwen3-ForcedAligner

Qwen 团队在 2026 年 1 月 29 日宣布开源 Qwen3-ASR 系列（1.7B、0.6B）及 Qwen3-ForcedAligner-0.6B，并在 GitHub 提供代码与推理/部署示例；模型权重同步发布到 Hugging Face/ModelScope，项目采用 Apache-2.0 许可证。

Qwen3-ASR 将语种识别与 ASR 合并为单模型“all-in-one”流程：官方说明其覆盖 52 个语种与方言，其中包括 30 种语言与 22 种中文口音/方言；推理侧同时支持离线与流式，并面向语音、歌唱及带 BGM 的歌声等音频类型。

配套的 Qwen3-ForcedAligner-0.6B 采用非自回归（NAR）时间戳预测方式，用于文本-语音对的强制对齐；官方给出的语种覆盖为 11 种语言，并宣称其时间戳精度在评测中优于多种主流强制对齐方案。效率指标方面，技术报告给出的示例为：Qwen3-ASR-0.6B 在 128 并发下可实现“1 秒转写 2000 秒语音”，平均首 Token 延迟（TTFT）最低 92ms；同时报告与仓库将 1.7B 版本描述为开源模型中的 SOTA，并称其可对标最强商业 API（均为自述评测结论）。

工具链方面，仓库提供 qwen-asr PyPI 包（Transformers 与 vLLM 两种后端）、本地 Gradio Web UI 与浏览器麦克风流式 Demo、以及 Docker 镜像与 vLLM 服务化命令封装，目标是覆盖批处理、高并发与在线服务场景。

huggingface