VibeVoice-ASR 实测：一个模型搞定语音识别和说话人分离

微软 1 月开源的 VibeVoice-ASR 语音识别模型（github.com/microsoft/VibeVoice），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。

模型简介

VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型，MIT 协议。最大卖点是单次能处理 60 分钟连续音频，而且把"谁在说、什么时候说、说了什么"做成结构化输出。

传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。

Simon 跑的是社区做的 4-bit 量化版（5.71GB，原模型 17.3GB），机器是 128GB 内存的 M5 Max MacBook Pro，转写一小时播客花了 8 分 45 秒。

调用时要手动把 max-tokens 调到 32768，否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示，prefill（预填充）阶段内存峰值飙到 61.5GB，生成阶段稳定在 18GB 上下，普通 32GB 笔电基本跑不动这个量化版。

模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈，但 Lenny 的开场白和广告口播用了不同的录音环境，模型干脆把这部分切成了第三人。

对做播客转写、会议纪要、采访整理的人来说，原来拼接的多步流程现在能压缩成一次推理。