语音识别 on 周先森的小站

VibeVoice-ASR 实测：一个模型搞定语音识别和说话人分离

Fri, 08 May 2026 00:00:00 +0800

微软 1 月开源的 VibeVoice-ASR 语音识别模型（github.com/microsoft/VibeVoice），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。

模型简介

VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型，MIT 协议。最大卖点是单次能处理 60 分钟连续音频，而且把"谁在说、什么时候说、说了什么"做成结构化输出。

传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。

实测数据

Simon 跑的是社区做的 4-bit 量化版（5.71GB，原模型 17.3GB），机器是 128GB 内存的 M5 Max MacBook Pro，转写一小时播客花了 8 分 45 秒。

调用时要手动把 max-tokens 调到 32768，否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示，prefill（预填充）阶段内存峰值飙到 61.5GB，生成阶段稳定在 18GB 上下，普通 32GB 笔电基本跑不动这个量化版。

有趣的细节

模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈，但 Lenny 的开场白和广告口播用了不同的录音环境，模型干脆把这部分切成了第三人。

硬限制

单次最多 60 分钟，超过要自己切片处理，还得手动对齐切片间的说话人 ID
想本地跑量化版至少要 64GB 以上内存的机器

对做播客转写、会议纪要、采访整理的人来说，原来拼接的多步流程现在能压缩成一次推理。