微软在开源项目 VibeVoice 中发布并开源 VibeVoice-ASR
一个统一的语音转文本模型,目标是在一次推理中处理最长约 60 分钟的连续音频。该模型基于长上下文(官方描述为 64K token),在单次推理里联合完成语音识别、说话人区分与时间戳对齐,输出包含 Who(说话人)、When(时间戳)和 What(内容)的结构化转录结果
VibeVoice-ASR 支持用户自定义上下文/热词(如专有名词、技术术语、背景信息)以引导识别、提升领域内容的转录效果;官方提供在线 Playground 试用,并在 Hugging Face 发布权重(GitHub README 中标注为 “VibeVoice-ASR-7B”,模型卡显示约 9B 参数),许可证为 MIT。
huggingface
一个统一的语音转文本模型,目标是在一次推理中处理最长约 60 分钟的连续音频。该模型基于长上下文(官方描述为 64K token),在单次推理里联合完成语音识别、说话人区分与时间戳对齐,输出包含 Who(说话人)、When(时间戳)和 What(内容)的结构化转录结果
VibeVoice-ASR 支持用户自定义上下文/热词(如专有名词、技术术语、背景信息)以引导识别、提升领域内容的转录效果;官方提供在线 Playground 试用,并在 Hugging Face 发布权重(GitHub README 中标注为 “VibeVoice-ASR-7B”,模型卡显示约 9B 参数),许可证为 MIT。
huggingface