OpenAI 上线三款 Realtime 语音模型

GPT-Realtime-2 带来 128K 上下文和五档推理强度,加上实时翻译和流式转录,语音 API 能力全面升级

OpenAI 在 Realtime API 里上线了三款新语音模型:GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisper,分别管对话、翻译和实时转录。

GPT-Realtime-2

号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5,在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%,Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。

几个实际变化:

  • 开口前会先垫一句。 执行长任务前先说"我查一下"“稍等一下”,避免用户对着空气以为它死机了。
  • 工具调用透明化。 能同时调多个工具,过程会被念出来,比如"正在查你的日历"“正在搜索”,让用户听到 agent 在干什么。
  • 上下文窗口从 32K 扩到 128K,能撑更长的对话和更复杂的任务编排。
  • 五档推理强度。 开发者可以在 minimal 到 xhigh 里选,默认 low。简单问答用低延迟,复杂任务挂高推理。
  • 出错时会说"这块我现在处理不了",不再直接卡死或乱讲。

Translate 和 Whisper

GPT-Realtime-Translate 支持 70 多种输入语言、13 种输出语言的实时语音翻译,主打跨境客服、教育、直播场景。德国电信已经在测;BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。

GPT-Realtime-Whisper 是流式版 Whisper,边说边出字幕,主打会议、直播、客服转录。

价格

模型计价
GPT-Realtime-2音频输入 $32 / 百万 token(缓存 $0.40),输出 $64 / 百万 token
GPT-Realtime-Translate$0.034 / 分钟
GPT-Realtime-Whisper$0.017 / 分钟

三款都已在 Realtime API 上线,Playground 可以直接试 GPT-Realtime-2。