微软在开源项目 VibeVoice 中发布并开源 VibeVoice-ASR一个统一的语音转文本模型，目标是在一次推理中处理最长约 60 分钟的连续音频

10:16 · Jan 23, 2026 · Fri

微软在开源项目 VibeVoice 中发布并开源 VibeVoice-ASR

一个统一的语音转文本模型，目标是在一次推理中处理最长约 60 分钟的连续音频。该模型基于长上下文（官方描述为 64K token），在单次推理里联合完成语音识别、说话人区分与时间戳对齐，输出包含 Who（说话人）、When（时间戳）和 What（内容）的结构化转录结果

VibeVoice-ASR 支持用户自定义上下文/热词（如专有名词、技术术语、背景信息）以引导识别、提升领域内容的转录效果；官方提供在线 Playground 试用，并在 Hugging Face 发布权重（GitHub README 中标注为 “VibeVoice-ASR-7B”，模型卡显示约 9B 参数），许可证为 MIT。

huggingface