<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>语音模型 on 周先森的小站</title><link>https://332002.xyz/tags/%E8%AF%AD%E9%9F%B3%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 语音模型 on 周先森的小站</description><generator>Hugo -- gohugo.io</generator><language>zh</language><lastBuildDate>Fri, 08 May 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://332002.xyz/tags/%E8%AF%AD%E9%9F%B3%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenAI 上线三款 Realtime 语音模型</title><link>https://332002.xyz/p/gpt-realtime-2/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/gpt-realtime-2/</guid><description>&lt;p&gt;OpenAI 在 Realtime API 里上线了三款新语音模型：&lt;strong&gt;GPT-Realtime-2&lt;/strong&gt;、&lt;strong&gt;GPT-Realtime-Translate&lt;/strong&gt; 和 &lt;strong&gt;GPT-Realtime-Whisper&lt;/strong&gt;，分别管对话、翻译和实时转录。&lt;/p&gt;
&lt;h2 id="gpt-realtime-2"&gt;GPT-Realtime-2
&lt;/h2&gt;&lt;p&gt;号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5，在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%，Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。&lt;/p&gt;
&lt;p&gt;几个实际变化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;开口前会先垫一句。&lt;/strong&gt; 执行长任务前先说&amp;quot;我查一下&amp;quot;&amp;ldquo;稍等一下&amp;rdquo;，避免用户对着空气以为它死机了。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具调用透明化。&lt;/strong&gt; 能同时调多个工具，过程会被念出来，比如&amp;quot;正在查你的日历&amp;quot;&amp;ldquo;正在搜索&amp;rdquo;，让用户听到 agent 在干什么。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;上下文窗口从 32K 扩到 128K&lt;/strong&gt;，能撑更长的对话和更复杂的任务编排。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;五档推理强度。&lt;/strong&gt; 开发者可以在 minimal 到 xhigh 里选，默认 low。简单问答用低延迟，复杂任务挂高推理。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;出错时会说&amp;quot;这块我现在处理不了&amp;quot;&lt;/strong&gt;，不再直接卡死或乱讲。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="translate-和-whisper"&gt;Translate 和 Whisper
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;GPT-Realtime-Translate&lt;/strong&gt; 支持 70 多种输入语言、13 种输出语言的实时语音翻译，主打跨境客服、教育、直播场景。德国电信已经在测；BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;GPT-Realtime-Whisper&lt;/strong&gt; 是流式版 Whisper，边说边出字幕，主打会议、直播、客服转录。&lt;/p&gt;
&lt;h2 id="价格"&gt;价格
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;计价&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-2&lt;/td&gt;
 &lt;td&gt;音频输入 $32 / 百万 token（缓存 $0.40），输出 $64 / 百万 token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Translate&lt;/td&gt;
 &lt;td&gt;$0.034 / 分钟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Whisper&lt;/td&gt;
 &lt;td&gt;$0.017 / 分钟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;三款都已在 Realtime API 上线，Playground 可以直接试 GPT-Realtime-2。&lt;/p&gt;</description></item></channel></rss>