OpenAI on 周先森的小站

OpenAI 提示词指南里最被低估的一条：想要选项，就直说

Mon, 11 May 2026 00:00:00 +0800

OpenAI 自己写了一份「ChatGPT 提示词最佳实践」放在帮助中心里。这份文档里有一条建议，看起来朴素到像废话，但 90% 的普通 AI 用户都没用过——

如果你想要选项，就直说。

原话给的例子是：「请给我两种不同的方式来呈现这份报告。」

听起来太简单了对不对？但这条规则在文案、营销、写作行业是基础打法——专业人士极少让 AI 只给一个版本。因为「第一个版本」几乎从来不是最好的版本。

为什么不让 AI 多给几个版本？

你回想一下自己平时怎么用 AI——

是不是问一个问题，AI 给一个答案，看着差不多就用了；不满意的话再改 prompt 重新问，反复改三五轮才得到能用的版本。

换个写法——「同一个问题，让 AI 一次给三个不同方向的版本」——整件事的效率立刻不一样。

为什么这一招比反复改 prompt 强？

因为 AI 给的「第一个答案」不一定是最好的，只是「最像标准答案」的。

LLM 工作的方式是基于概率挑下一个词，给你的第一份草稿往往是中位数水平——足够安全，但也足够平庸。

你让它一次出三个版本，等于让它把「保险版本」「冒险一点的版本」「另一个角度的版本」都呈现出来。看到这三个，你才知道哪个真正贴近自己想要的。

更妙的是——你看到三个版本之后，往往会发现自己原本根本不知道想要什么。这三个版本帮你定位了你真正的偏好。

三个维度，按场景挑一个

那「让 AI 出三个版本」具体怎么写？三个常用维度，按场景挑一个。

风格维度

适合写邮件、写文案、做沟通。让 AI 给你一个保守版、一个中性版、一个直接的版本。比如让 AI 写「拒绝合作伙伴」的邮件——保守版会很客气，中性版会平实地说明原因，直接版会简短果断。哪种合适，看你跟对方的关系定。

长度维度

适合写简介、做摘要、写自我介绍。让 AI 给你一个 50 字版、一个 150 字版、一个 300 字版。短的适合朋友圈和简历，中长的适合发邮件，长的适合演讲稿。

角度维度

适合做决策、想标题、做产品文案。让 AI 给你「数据派」「故事派」「逻辑派」三种切入角度。比如想给一篇文章起标题——数据派会用数字开头，故事派会从一个人物切入，逻辑派会直接亮观点。

一个具体场景

你刚换了工作，需要在朋友圈写一段简短的「转行通知」。

老办法：你随便问 AI，「帮我写一段朋友圈说我换工作了」。AI 给一段，你看了觉得太煽情或太敷衍，再改 prompt：「再正式一点」「再简短一点」⋯⋯反复改好几次。

新办法：你一次说：「帮我写三个版本，第一个轻松一点像聊天，第二个稍正式适合给前同事看，第三个非常简短三句话以内。」

AI 给完，你往往会发现：「原来我真正想要的是第二个版本里第二句的表达，加上第三个版本的精简感。」自己组合一下，就成了。

整个过程从「你跟 AI 试错」变成「你看 AI 给的菜单挑」。

进阶玩法

进阶玩法是再加一句——

「请给完三个版本之后，从读者角度点评每一个版本的优缺点。」

AI 会扮演评论家，把它给的三个版本各自的好坏说清楚。你不止看到三个选项，还能看到每个选项背后的逻辑。

这一招对完全不懂某个领域的人特别有用。比如你不懂法律，让 AI 起一份回执函时给你三个版本加各自风险点，等于免费多了一个顾问视角。

它本质上是在改变你跟 AI 协作的姿势：不是「我问，它答」，而是「我给一个题目，它给我一个选择空间」。

OpenAI 上线官方命令行工具 openai-cli

Fri, 08 May 2026 00:00:00 +0800

OpenAI 上线了官方命令行工具 openai-cli，开发者可以直接在终端里调 API，不用再写 SDK 代码。

项目开源在 GitHub（openai/openai-cli），Apache 2.0 协议，可通过 Homebrew 或 Go 安装。命令走资源化结构，比如：

1

openai responses create --input "..." --model <model>

核心能力

Responses API + Cloud Tools

调用 Responses API，并且支持所有 cloud tools——OpenAI 托管的内置工具，包括 web 搜索、代码解释器、文件检索、图像生成等。换句话说，agent 风格的工作流也能直接从命令行跑通。

Unix 风格输出

输出走结构化格式（JSON、YAML、JSONL、pretty、raw 等），可以管道串联，再配合内建 GJSON 语法直接抽字段，跟 jq 类似但是内建的。

多模态一行搞定

图像生成、图像编辑、语音转录、TTS 这些原本要写 Python 调 SDK 的事情，一行命令就能完成。

管理类操作

可以创建 project、配发 API key，对运维和团队管理者比较友好。

文件传参

用 @file.ext 语法，跟 curl 习惯一致；二进制内容可以用 @data:// 显式 base64 编码。

背景

发布的人是 jxnlco（Jason Liu），他在 X 上把这个项目定性为 “small ship / passion project”，暗示是相对轻量的发布，更多文档稍后放出。

之前 OpenAI 官方只有 Python、Node 等语言 SDK，纯命令行用户要么裸写 curl，要么自己包脚本。这次把 SDK 能力直接搬到 shell 里，能拼进现有的自动化流程，也方便服务器端和 CI/CD 场景。

很适合 Agent 使用。

参考：jxnlco on X

OpenAI 上线三款 Realtime 语音模型

Fri, 08 May 2026 00:00:00 +0800

OpenAI 在 Realtime API 里上线了三款新语音模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，分别管对话、翻译和实时转录。

GPT-Realtime-2

号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5，在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%，Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。

几个实际变化：

开口前会先垫一句。 执行长任务前先说"我查一下"“稍等一下”，避免用户对着空气以为它死机了。
工具调用透明化。 能同时调多个工具，过程会被念出来，比如"正在查你的日历"“正在搜索”，让用户听到 agent 在干什么。
上下文窗口从 32K 扩到 128K，能撑更长的对话和更复杂的任务编排。
五档推理强度。 开发者可以在 minimal 到 xhigh 里选，默认 low。简单问答用低延迟，复杂任务挂高推理。
出错时会说"这块我现在处理不了"，不再直接卡死或乱讲。

Translate 和 Whisper

GPT-Realtime-Translate 支持 70 多种输入语言、13 种输出语言的实时语音翻译，主打跨境客服、教育、直播场景。德国电信已经在测；BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。

GPT-Realtime-Whisper 是流式版 Whisper，边说边出字幕，主打会议、直播、客服转录。

价格

模型	计价
GPT-Realtime-2	音频输入 $32 / 百万 token（缓存 $0.40），输出 $64 / 百万 token
GPT-Realtime-Translate	$0.034 / 分钟
GPT-Realtime-Whisper	$0.017 / 分钟

三款都已在 Realtime API 上线，Playground 可以直接试 GPT-Realtime-2。