<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>语音识别 on 周先森的小站</title><link>https://332002.xyz/tags/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB/</link><description>Recent content in 语音识别 on 周先森的小站</description><generator>Hugo -- gohugo.io</generator><language>zh</language><lastBuildDate>Fri, 08 May 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://332002.xyz/tags/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB/index.xml" rel="self" type="application/rss+xml"/><item><title>VibeVoice-ASR 实测：一个模型搞定语音识别和说话人分离</title><link>https://332002.xyz/p/vibevoice-asr/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/vibevoice-asr/</guid><description>&lt;p&gt;微软 1 月开源的 VibeVoice-ASR 语音识别模型（&lt;a class="link" href="https://github.com/microsoft/VibeVoice" target="_blank" rel="noopener"
 &gt;github.com/microsoft/VibeVoice&lt;/a&gt;），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。&lt;/p&gt;
&lt;h2 id="模型简介"&gt;模型简介
&lt;/h2&gt;&lt;p&gt;VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型，MIT 协议。最大卖点是单次能处理 60 分钟连续音频，而且把&amp;quot;谁在说、什么时候说、说了什么&amp;quot;做成结构化输出。&lt;/p&gt;
&lt;p&gt;传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。&lt;/p&gt;
&lt;h2 id="实测数据"&gt;实测数据
&lt;/h2&gt;&lt;p&gt;Simon 跑的是社区做的 4-bit 量化版（5.71GB，原模型 17.3GB），机器是 128GB 内存的 M5 Max MacBook Pro，转写一小时播客花了 &lt;strong&gt;8 分 45 秒&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;调用时要手动把 &lt;code&gt;max-tokens&lt;/code&gt; 调到 32768，否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示，prefill（预填充）阶段内存峰值飙到 61.5GB，生成阶段稳定在 18GB 上下，普通 32GB 笔电基本跑不动这个量化版。&lt;/p&gt;
&lt;h2 id="有趣的细节"&gt;有趣的细节
&lt;/h2&gt;&lt;p&gt;模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈，但 Lenny 的开场白和广告口播用了不同的录音环境，模型干脆把这部分切成了第三人。&lt;/p&gt;
&lt;h2 id="硬限制"&gt;硬限制
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;单次最多 60 分钟，超过要自己切片处理，还得手动对齐切片间的说话人 ID&lt;/li&gt;
&lt;li&gt;想本地跑量化版至少要 64GB 以上内存的机器&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对做播客转写、会议纪要、采访整理的人来说，原来拼接的多步流程现在能压缩成一次推理。&lt;/p&gt;</description></item></channel></rss>