OpenAI 上线三款 Realtime 语音模型

OpenAI 在 Realtime API 里上线了三款新语音模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，分别管对话、翻译和实时转录。

GPT-Realtime-2

号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5，在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%，Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。

几个实际变化：

GPT-Realtime-Translate 支持 70 多种输入语言、13 种输出语言的实时语音翻译，主打跨境客服、教育、直播场景。德国电信已经在测；BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。

GPT-Realtime-Whisper 是流式版 Whisper，边说边出字幕，主打会议、直播、客服转录。

三款都已在 Realtime API 上线，Playground 可以直接试 GPT-Realtime-2。