微软 1 月开源的 VibeVoice-ASR 语音识别模型(github.com/microsoft/VibeVoice),Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。
模型简介
VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型,MIT 协议。最大卖点是单次能处理 60 分钟连续音频,而且把"谁在说、什么时候说、说了什么"做成结构化输出。
传统方案要拿 Whisper(OpenAI 开源的语音识别模型)配上 pyannote 这种说话人分离工具拼起来,这次一个模型直接搞定,原生支持 50 多种语言和中英混说。
实测数据
Simon 跑的是社区做的 4-bit 量化版(5.71GB,原模型 17.3GB),机器是 128GB 内存的 M5 Max MacBook Pro,转写一小时播客花了 8 分 45 秒。
调用时要手动把 max-tokens 调到 32768,否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示,prefill(预填充)阶段内存峰值飙到 61.5GB,生成阶段稳定在 18GB 上下,普通 32GB 笔电基本跑不动这个量化版。
有趣的细节
模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈,但 Lenny 的开场白和广告口播用了不同的录音环境,模型干脆把这部分切成了第三人。
硬限制
- 单次最多 60 分钟,超过要自己切片处理,还得手动对齐切片间的说话人 ID
- 想本地跑量化版至少要 64GB 以上内存的机器
对做播客转写、会议纪要、采访整理的人来说,原来拼接的多步流程现在能压缩成一次推理。