<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>OpenAI on 周先森的小站</title><link>https://332002.xyz/tags/openai/</link><description>Recent content in OpenAI on 周先森的小站</description><generator>Hugo -- gohugo.io</generator><language>zh</language><lastBuildDate>Mon, 11 May 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://332002.xyz/tags/openai/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenAI 提示词指南里最被低估的一条：想要选项，就直说</title><link>https://332002.xyz/p/openai-prompt-options/</link><pubDate>Mon, 11 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/openai-prompt-options/</guid><description>&lt;p&gt;OpenAI 自己写了一份「ChatGPT 提示词最佳实践」放在帮助中心里。这份文档里有一条建议，看起来朴素到像废话，但 90% 的普通 AI 用户都没用过——&lt;/p&gt;
&lt;p&gt;如果你想要选项，就直说。&lt;/p&gt;
&lt;p&gt;原话给的例子是：「请给我两种不同的方式来呈现这份报告。」&lt;/p&gt;
&lt;p&gt;听起来太简单了对不对？但这条规则在文案、营销、写作行业是基础打法——专业人士极少让 AI 只给一个版本。因为「第一个版本」几乎从来不是最好的版本。&lt;/p&gt;
&lt;h2 id="为什么不让-ai-多给几个版本"&gt;为什么不让 AI 多给几个版本？
&lt;/h2&gt;&lt;p&gt;你回想一下自己平时怎么用 AI——&lt;/p&gt;
&lt;p&gt;是不是问一个问题，AI 给一个答案，看着差不多就用了；不满意的话再改 prompt 重新问，反复改三五轮才得到能用的版本。&lt;/p&gt;
&lt;p&gt;换个写法——「同一个问题，让 AI 一次给三个不同方向的版本」——整件事的效率立刻不一样。&lt;/p&gt;
&lt;p&gt;为什么这一招比反复改 prompt 强？&lt;/p&gt;
&lt;p&gt;因为 AI 给的「第一个答案」不一定是最好的，只是「最像标准答案」的。&lt;/p&gt;
&lt;p&gt;LLM 工作的方式是基于概率挑下一个词，给你的第一份草稿往往是中位数水平——足够安全，但也足够平庸。&lt;/p&gt;
&lt;p&gt;你让它一次出三个版本，等于让它把「保险版本」「冒险一点的版本」「另一个角度的版本」都呈现出来。看到这三个，你才知道哪个真正贴近自己想要的。&lt;/p&gt;
&lt;p&gt;更妙的是——你看到三个版本之后，往往会发现自己原本根本不知道想要什么。这三个版本帮你定位了你真正的偏好。&lt;/p&gt;
&lt;h2 id="三个维度按场景挑一个"&gt;三个维度，按场景挑一个
&lt;/h2&gt;&lt;p&gt;那「让 AI 出三个版本」具体怎么写？三个常用维度，按场景挑一个。&lt;/p&gt;
&lt;h3 id="风格维度"&gt;风格维度
&lt;/h3&gt;&lt;p&gt;适合写邮件、写文案、做沟通。让 AI 给你一个保守版、一个中性版、一个直接的版本。比如让 AI 写「拒绝合作伙伴」的邮件——保守版会很客气，中性版会平实地说明原因，直接版会简短果断。哪种合适，看你跟对方的关系定。&lt;/p&gt;
&lt;h3 id="长度维度"&gt;长度维度
&lt;/h3&gt;&lt;p&gt;适合写简介、做摘要、写自我介绍。让 AI 给你一个 50 字版、一个 150 字版、一个 300 字版。短的适合朋友圈和简历，中长的适合发邮件，长的适合演讲稿。&lt;/p&gt;
&lt;h3 id="角度维度"&gt;角度维度
&lt;/h3&gt;&lt;p&gt;适合做决策、想标题、做产品文案。让 AI 给你「数据派」「故事派」「逻辑派」三种切入角度。比如想给一篇文章起标题——数据派会用数字开头，故事派会从一个人物切入，逻辑派会直接亮观点。&lt;/p&gt;
&lt;h2 id="一个具体场景"&gt;一个具体场景
&lt;/h2&gt;&lt;p&gt;你刚换了工作，需要在朋友圈写一段简短的「转行通知」。&lt;/p&gt;
&lt;p&gt;老办法：你随便问 AI，「帮我写一段朋友圈说我换工作了」。AI 给一段，你看了觉得太煽情或太敷衍，再改 prompt：「再正式一点」「再简短一点」⋯⋯反复改好几次。&lt;/p&gt;
&lt;p&gt;新办法：你一次说：「帮我写三个版本，第一个轻松一点像聊天，第二个稍正式适合给前同事看，第三个非常简短三句话以内。」&lt;/p&gt;
&lt;p&gt;AI 给完，你往往会发现：「原来我真正想要的是第二个版本里第二句的表达，加上第三个版本的精简感。」自己组合一下，就成了。&lt;/p&gt;
&lt;p&gt;整个过程从「你跟 AI 试错」变成「你看 AI 给的菜单挑」。&lt;/p&gt;
&lt;h2 id="进阶玩法"&gt;进阶玩法
&lt;/h2&gt;&lt;p&gt;进阶玩法是再加一句——&lt;/p&gt;
&lt;p&gt;「请给完三个版本之后，从读者角度点评每一个版本的优缺点。」&lt;/p&gt;
&lt;p&gt;AI 会扮演评论家，把它给的三个版本各自的好坏说清楚。你不止看到三个选项，还能看到每个选项背后的逻辑。&lt;/p&gt;
&lt;p&gt;这一招对完全不懂某个领域的人特别有用。比如你不懂法律，让 AI 起一份回执函时给你三个版本加各自风险点，等于免费多了一个顾问视角。&lt;/p&gt;
&lt;p&gt;它本质上是在改变你跟 AI 协作的姿势：不是「我问，它答」，而是「我给一个题目，它给我一个选择空间」。&lt;/p&gt;</description></item><item><title>OpenAI 上线官方命令行工具 openai-cli</title><link>https://332002.xyz/p/openai-cli/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/openai-cli/</guid><description>&lt;p&gt;OpenAI 上线了官方命令行工具 &lt;strong&gt;openai-cli&lt;/strong&gt;，开发者可以直接在终端里调 API，不用再写 SDK 代码。&lt;/p&gt;
&lt;p&gt;项目开源在 GitHub（&lt;a class="link" href="https://github.com/openai/openai-cli" target="_blank" rel="noopener"
 &gt;openai/openai-cli&lt;/a&gt;），Apache 2.0 协议，可通过 Homebrew 或 Go 安装。命令走资源化结构，比如：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;openai responses create --input &lt;span class="s2"&gt;&amp;#34;...&amp;#34;&lt;/span&gt; --model &amp;lt;model&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id="核心能力"&gt;核心能力
&lt;/h2&gt;&lt;h3 id="responses-api--cloud-tools"&gt;Responses API + Cloud Tools
&lt;/h3&gt;&lt;p&gt;调用 Responses API，并且支持所有 &lt;strong&gt;cloud tools&lt;/strong&gt;——OpenAI 托管的内置工具，包括 web 搜索、代码解释器、文件检索、图像生成等。换句话说，agent 风格的工作流也能直接从命令行跑通。&lt;/p&gt;
&lt;h3 id="unix-风格输出"&gt;Unix 风格输出
&lt;/h3&gt;&lt;p&gt;输出走结构化格式（JSON、YAML、JSONL、pretty、raw 等），可以管道串联，再配合内建 GJSON 语法直接抽字段，跟 jq 类似但是内建的。&lt;/p&gt;
&lt;h3 id="多模态一行搞定"&gt;多模态一行搞定
&lt;/h3&gt;&lt;p&gt;图像生成、图像编辑、语音转录、TTS 这些原本要写 Python 调 SDK 的事情，一行命令就能完成。&lt;/p&gt;
&lt;h3 id="管理类操作"&gt;管理类操作
&lt;/h3&gt;&lt;p&gt;可以创建 project、配发 API key，对运维和团队管理者比较友好。&lt;/p&gt;
&lt;h2 id="文件传参"&gt;文件传参
&lt;/h2&gt;&lt;p&gt;用 &lt;code&gt;@file.ext&lt;/code&gt; 语法，跟 curl 习惯一致；二进制内容可以用 &lt;code&gt;@data://&lt;/code&gt; 显式 base64 编码。&lt;/p&gt;
&lt;h2 id="背景"&gt;背景
&lt;/h2&gt;&lt;p&gt;发布的人是 jxnlco（Jason Liu），他在 X 上把这个项目定性为 &amp;ldquo;small ship / passion project&amp;rdquo;，暗示是相对轻量的发布，更多文档稍后放出。&lt;/p&gt;
&lt;p&gt;之前 OpenAI 官方只有 Python、Node 等语言 SDK，纯命令行用户要么裸写 curl，要么自己包脚本。这次把 SDK 能力直接搬到 shell 里，能拼进现有的自动化流程，也方便服务器端和 CI/CD 场景。&lt;/p&gt;
&lt;p&gt;很适合 Agent 使用。&lt;/p&gt;
&lt;hr&gt;

 &lt;blockquote&gt;
 &lt;p&gt;参考：&lt;a class="link" href="http://t.cn/AXJ1ibKl" target="_blank" rel="noopener"
 &gt;jxnlco on X&lt;/a&gt;&lt;/p&gt;

 &lt;/blockquote&gt;</description></item><item><title>OpenAI 上线三款 Realtime 语音模型</title><link>https://332002.xyz/p/gpt-realtime-2/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/gpt-realtime-2/</guid><description>&lt;p&gt;OpenAI 在 Realtime API 里上线了三款新语音模型：&lt;strong&gt;GPT-Realtime-2&lt;/strong&gt;、&lt;strong&gt;GPT-Realtime-Translate&lt;/strong&gt; 和 &lt;strong&gt;GPT-Realtime-Whisper&lt;/strong&gt;，分别管对话、翻译和实时转录。&lt;/p&gt;
&lt;h2 id="gpt-realtime-2"&gt;GPT-Realtime-2
&lt;/h2&gt;&lt;p&gt;号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5，在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%，Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。&lt;/p&gt;
&lt;p&gt;几个实际变化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;开口前会先垫一句。&lt;/strong&gt; 执行长任务前先说&amp;quot;我查一下&amp;quot;&amp;ldquo;稍等一下&amp;rdquo;，避免用户对着空气以为它死机了。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具调用透明化。&lt;/strong&gt; 能同时调多个工具，过程会被念出来，比如&amp;quot;正在查你的日历&amp;quot;&amp;ldquo;正在搜索&amp;rdquo;，让用户听到 agent 在干什么。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;上下文窗口从 32K 扩到 128K&lt;/strong&gt;，能撑更长的对话和更复杂的任务编排。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;五档推理强度。&lt;/strong&gt; 开发者可以在 minimal 到 xhigh 里选，默认 low。简单问答用低延迟，复杂任务挂高推理。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;出错时会说&amp;quot;这块我现在处理不了&amp;quot;&lt;/strong&gt;，不再直接卡死或乱讲。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="translate-和-whisper"&gt;Translate 和 Whisper
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;GPT-Realtime-Translate&lt;/strong&gt; 支持 70 多种输入语言、13 种输出语言的实时语音翻译，主打跨境客服、教育、直播场景。德国电信已经在测；BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;GPT-Realtime-Whisper&lt;/strong&gt; 是流式版 Whisper，边说边出字幕，主打会议、直播、客服转录。&lt;/p&gt;
&lt;h2 id="价格"&gt;价格
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;计价&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-2&lt;/td&gt;
 &lt;td&gt;音频输入 $32 / 百万 token（缓存 $0.40），输出 $64 / 百万 token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Translate&lt;/td&gt;
 &lt;td&gt;$0.034 / 分钟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Whisper&lt;/td&gt;
 &lt;td&gt;$0.017 / 分钟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;三款都已在 Realtime API 上线，Playground 可以直接试 GPT-Realtime-2。&lt;/p&gt;</description></item></channel></rss>