技术 on 周先森的小站

AI 会引发大规模失业？吴恩达说这是个恐慌故事

Wed, 13 May 2026 00:00:00 +0800

吴恩达老师观点：所谓"AI 会引发大规模失业"，纯粹是一种不负责任的恐慌故事。

软件工程师都快被 AI 工具折腾死了吧？可现实却是工程师招聘市场依旧火爆，美国失业率稳稳地停在 4.3%，没半点要崩的样子。每一波技术浪潮，最终创造出来的新岗位远比被干掉的多得多，这次也不会例外。

“AI 抢饭碗"这个故事为啥这么流行

背后的三股推动力：

一是前沿 AI 公司特愿意把自己技术吹得越神越好。 一项技术能干掉一个年薪十万的员工，那卖你一万美元的订阅费是不是就显得便宜了？

二是企业自己也爱把裁员说成是"AI 提效”。 毕竟比承认"疫情期间招人招过头了"听着体面多了。

三是媒体天然就偏爱恐慌故事。 “AI 会让人类灭绝”，这标题点击率总比"AI 会改变你的工作内容"高出几个数量级。

历史上的类似恐慌

他举了些历史上类似的群体恐慌故事：比如公众对核电站安全的过度焦虑，直接导致核电发展停滞几十年；60 年代"人口炸弹"的恐惧，让很多国家祭出了严厉的人口控制政策；再比如对脂肪的恐惧，导致政府推广了几十年的高糖低脂饮食。这些听起来有点荒唐，但当年每一个故事都非常流行，并实实在在影响了无数人的生活。

真正会发生什么

AI 不会带来失业末日（jobpocalypse），而会带来一场就业狂欢（jobapalooza）。大量 AI 工程师的岗位即将诞生，而且还不止是在传统科技公司里。其他非 AI 岗位的技能需求也会发生重大变化。对普通人来说，现在正是进入 AI 行业、或者掌握 AI 工具的最佳时机。

Dario Amodei 2.8万字长文：强大 AI 出现之后的世界

Mon, 11 May 2026 00:00:00 +0800

Anthropic 创始人 Dario Amodei（Claude 这家大模型背后的人）写过一篇 2.8万字的长文，叫 Machines of Loving Grace（直译「充满爱的机器」）。

这篇文章在英文 AI 圈被反复引用，因为它做了一件大部分 AI 公司高管不太愿意做的事——他不只讲风险，而是系统性地写「假如真正强大的 AI 真的出现，世界变好的路径长什么样」。中文圈摘过几段，但少有人讲过整篇本身，更没人提炼出「普通人能用什么」。下面梳理。

「压缩的21世纪」

先说他这篇文章的核心说法，叫「压缩的21世纪」。

意思是：如果真正强大的 AI 出现，它能把人类生物学家原本要花50到100年才能做出的进步，压到5到10年内完成。他给「真正强大的 AI」下了具体定义：在生物、编程、数学、工程上比诺贝尔奖得主聪明，能自主完成几小时到几周的任务，几百万个独立实例同时跑、速度比人类快几十倍。他用一句话总结叫「数据中心里的天才国度」。

他认为 AI 真正强大之后影响最大的有5个领域，挨个讲。

五大影响领域

生物医学

这是他最有把握的一块。在他的设想里，大部分自然感染病可以可靠预防或治疗，多数癌症的死亡率显著下降，阿尔茨海默症得到预防，糖尿病、肥胖、心脏病、自身免疫病这些慢病也会大幅好转，健康寿命可能再延长一倍。

为什么是这块？Dario 的解释是，生物问题足够「可计算化」，很多突破靠从海量数据里找规律，正好是 AI 最强的事。

神经科学和心理健康

Dario 设想 PTSD、抑郁、精神分裂、成瘾这些都能得到根治或显著缓解，自闭症、智力障碍也会有有效干预，普通人的日常情绪和认知功能基线也会改善。他特别提到一句很有意思的话：现代 AI 解释性研究（搞明白模型内部在干什么）和神经科学家研究大脑问的是同一类问题。所以 AI 反过来帮人类理解大脑，是双向促进的。

经济发展和贫困

设想里，医疗进步会扩散到现在的发展中世界，最贫困地区可能在5到10年内追上现在中等收入国家的水平，农业可能出现「第二次绿色革命」，气候变化的技术应对也会加速。但他自己明确说这块没那么有把握。技术能造出来不等于能均衡分配，腐败、制度差异、人本身愿不愿意接受新技术，这些都不是 AI 能直接解决的。

国际治理

这块他写得最谨慎，整章主要在列疑虑而不是设想，本文就不展开了。

工作和意义

这一块跟普通人最相关。

他的看法是，短期内，人类还能靠「比较优势」在经济里保持相关性。意思是哪怕 AI 在每件事上都比你强，人和 AI 协作仍然比 AI 单干便宜，所以人还有事干。长期看，如果 AI 在几乎所有任务上都超过人，社会需要重新设计，可能是 UBI（全民基本收入），也可能是别的机制。

他特别讲了一句让我印象很深的话：「人生意义大部分来自人和人的关系，不是经济劳动。今天就有大量没经济价值的活动让人活得有意义，未来这个比例只会更大。」

三个普通人现在能用的判断

读完整篇，我提炼出3个普通人现在能用的判断。

判断一：哪些领域最先变？

Dario 自己最有信心的是生物医学这种「问题足够可计算化」的领域。放大到普通人，任何「主要靠处理文字、信息、数据」的工作都会先被波及。一个简单的自检：你日常工作里有多少时间是在屏幕前处理信息？比例越高，AI 影响来得越快。

判断二：你工作的哪部分会被压缩？

注意 Dario 用的词是 compress——压缩，不是消失。他的逻辑是 AI 会把「重复性、可结构化」的部分加速，而需要判断、需要拍板、需要跟人协调的部分还在。落到自己身上，把工作拆成具体任务清单，挨个问「这一项 AI 现在能做几成？」流程性的部分先压缩，关系性、判断性的部分先留下。

判断三：哪些技能反而升值？

这是 Dario 没明说但暗含的：AI 越强，能「组织 AI、判断 AI、修正 AI」的人越值钱。具体讲，把模糊问题说成 AI 能听懂的具体描述、跨领域整合信息、在不确定情境下做决定、跟真人深度沟通，这些都升值。

最后

Dario 自己在文章里反复强调：「这一切都是猜测」「我说的每件事都很容易被证明是错的」「细节几乎肯定会错」。他写这篇不是为了预言未来，是因为他觉得 AI 圈不能光讲风险，得有「我们到底在为什么而努力」的正面图景。

文章最后他引了一本科幻小说，他说人类社会真正能稳定运行的方向，是同情、合作、自主、公平这些价值。AI 不会把这些方向反转，AI 只会加速这些价值的实现。

当然 Dario 这两年动不动就说一下很让人「震惊」的话，以至于黄仁勋最近都公开说不同意他的一些看法。还有他对我们有一些敌意，这也是事实。

我们就是冷静的去学习和吸收那些对我们有帮助的信息。

OpenAI 提示词指南里最被低估的一条：想要选项，就直说

Mon, 11 May 2026 00:00:00 +0800

OpenAI 自己写了一份「ChatGPT 提示词最佳实践」放在帮助中心里。这份文档里有一条建议，看起来朴素到像废话，但 90% 的普通 AI 用户都没用过——

如果你想要选项，就直说。

原话给的例子是：「请给我两种不同的方式来呈现这份报告。」

听起来太简单了对不对？但这条规则在文案、营销、写作行业是基础打法——专业人士极少让 AI 只给一个版本。因为「第一个版本」几乎从来不是最好的版本。

为什么不让 AI 多给几个版本？

你回想一下自己平时怎么用 AI——

是不是问一个问题，AI 给一个答案，看着差不多就用了；不满意的话再改 prompt 重新问，反复改三五轮才得到能用的版本。

换个写法——「同一个问题，让 AI 一次给三个不同方向的版本」——整件事的效率立刻不一样。

为什么这一招比反复改 prompt 强？

因为 AI 给的「第一个答案」不一定是最好的，只是「最像标准答案」的。

LLM 工作的方式是基于概率挑下一个词，给你的第一份草稿往往是中位数水平——足够安全，但也足够平庸。

你让它一次出三个版本，等于让它把「保险版本」「冒险一点的版本」「另一个角度的版本」都呈现出来。看到这三个，你才知道哪个真正贴近自己想要的。

更妙的是——你看到三个版本之后，往往会发现自己原本根本不知道想要什么。这三个版本帮你定位了你真正的偏好。

三个维度，按场景挑一个

那「让 AI 出三个版本」具体怎么写？三个常用维度，按场景挑一个。

风格维度

适合写邮件、写文案、做沟通。让 AI 给你一个保守版、一个中性版、一个直接的版本。比如让 AI 写「拒绝合作伙伴」的邮件——保守版会很客气，中性版会平实地说明原因，直接版会简短果断。哪种合适，看你跟对方的关系定。

长度维度

适合写简介、做摘要、写自我介绍。让 AI 给你一个 50 字版、一个 150 字版、一个 300 字版。短的适合朋友圈和简历，中长的适合发邮件，长的适合演讲稿。

角度维度

适合做决策、想标题、做产品文案。让 AI 给你「数据派」「故事派」「逻辑派」三种切入角度。比如想给一篇文章起标题——数据派会用数字开头，故事派会从一个人物切入，逻辑派会直接亮观点。

一个具体场景

你刚换了工作，需要在朋友圈写一段简短的「转行通知」。

老办法：你随便问 AI，「帮我写一段朋友圈说我换工作了」。AI 给一段，你看了觉得太煽情或太敷衍，再改 prompt：「再正式一点」「再简短一点」⋯⋯反复改好几次。

新办法：你一次说：「帮我写三个版本，第一个轻松一点像聊天，第二个稍正式适合给前同事看，第三个非常简短三句话以内。」

AI 给完，你往往会发现：「原来我真正想要的是第二个版本里第二句的表达，加上第三个版本的精简感。」自己组合一下，就成了。

整个过程从「你跟 AI 试错」变成「你看 AI 给的菜单挑」。

进阶玩法

进阶玩法是再加一句——

「请给完三个版本之后，从读者角度点评每一个版本的优缺点。」

AI 会扮演评论家，把它给的三个版本各自的好坏说清楚。你不止看到三个选项，还能看到每个选项背后的逻辑。

这一招对完全不懂某个领域的人特别有用。比如你不懂法律，让 AI 起一份回执函时给你三个版本加各自风险点，等于免费多了一个顾问视角。

它本质上是在改变你跟 AI 协作的姿势：不是「我问，它答」，而是「我给一个题目，它给我一个选择空间」。

最懂大模型的人教你写提示词

Mon, 11 May 2026 00:00:00 +0800

来看看最懂大模型的人教你写提示词，网上的技巧大多都没用。

我最近看到一份大模型厂商内部的 AI 提示词指南，觉得很值得讲一讲。

写它的人 Alex Albert，是做 Claude 的 AI 公司 Anthropic 在2023年招进去的内部第一位提示词工程师，原职衔甚至有点不正经，叫 prompt engineer and librarian（提示词工程师加图书管理员）。这两年他升到 Anthropic 开发者关系负责人，对外讲 Claude 怎么用基本都是他的活，这份官方指南也是他的核心维护内容。可以说，他大概是最了解 AI 大模型怎么读提示词的那一类人。

看完之后我回头翻了翻网上各种「提示词课」的笔记，发现一件挺尴尬的事：网上传的那些「魔咒式技巧」（「我会给你50美元小费」、「你是顶尖专家」之类），从模型厂商内部视角看大多数没用，有些反而让答案变差。

这份指南讲的是模型内部如何看待你写的提示词、什么真正影响它的输出。能拿到这种「模型厂商内部视角」的资料并不多见。

没用的技巧

先说网上传得很广、但官方指南明确说没用或反作用的几条。

误区一：激励式提示词

「我会给你50美元小费」「做不好就处罚你」这种套路，过去一两年在国外社交圈传得到处都是。Anthropic 内部测过，对最新的 Claude 模型，小费、威胁、装客气这些「小把戏」基本不影响输出质量。模型不在乎你赏不赏它，它只在乎你说清没说清。

误区二：「你是一位 X 行业20年专家」开头万金油

我们之前介绍过一项研究：在事实问答任务上，加这种「专家身份」反而把准确率从七成多拉到不到七成。官方指南里也讲明白，角色扮演型提示词在写作、风格化这种场景里有用，做事实任务别滥用。

误区三：越长越复杂越好的提示词模板

有些课程教人用三百字模板包一个本来三十字就能说清的请求。指南里的第一原则就一句话：直接、明确说要什么，不要绕弯子。模型不需要被催眠，它需要的是清楚的指令。

误区四：「魔咒关键词」

比如英文圈传得很玄的 “think harder”（想得更努力）、“work very carefully”（仔细工作）、“this is very important”（这件事特别重要）这种词。简单的「先一步步分析再答」那种引导是真有用的；但「这件事特别重要哦」这种就是噪声，对今天的模型没意义。

真正有效的做法

那真正有效的是哪几条？指南里讲的第一条不是技巧，是心态：好的提示词像给一个新同事讲任务，不是写咒语。

落到具体动作，几条最值得记的：

给具体例子

指南里讲，给一个例子比写五条抽象规则有效。你想让 AI 写一段产品介绍文案，与其写「要简洁、要专业、要有吸引力」，不如直接贴一段你觉得对味的范文，让它「按这个风格写」。这一招业内叫「多例提示」（英文 multishot prompting），对几乎所有任务都有效。

给模型时间想

复杂任务前面写一句「先一步步分析，再给最终答案」。指南给了三层做法：

基础：直接写一句「先一步步思考」
引导：列出具体的分析步骤
结构化：用 <thinking>（思考）和 <answer>（回答）这种标签把「想」和「答」分开

用 XML 标签做结构

把上下文资料、任务说明、输出格式分别用 <document>（资料）、<task>（任务）、<format>（格式）这种标签包起来。指南里特别强调一句：标签名字怎么起不重要，前后一致就行。比起用空行或破折号分隔，标签对模型识别的提升很明显。

允许 AI 说「不知道」

在提示词里写一句「如果资料里没有这个信息，就直接说不知道，不要编造」。这是降低幻觉率最简单有效的一招。模型本来就知道自己不知道，是被人逼着回答才编的。

定义输出格式

直接说要「列表」「表格」「JSON」还是「两段话」，比让模型自由发挥稳定得多。

一个完整示例

把这几条揉进一段普通提示词，长这样：

请分析下面这段产品评论的情绪倾向。先一步步分析评论里的关键句，包在 <thinking> 标签里；然后给出最终判断（正面、负面或中立），包在 <answer> 标签里。如果有判断不准的地方，直接说不确定，不要硬编。最后给一段不超过100字的总结。

评论内容：……

不用装客气，不用「专家」开头，不用承诺给小费。清楚的结构加具体的例子加明确的格式，就是最强的提示词。

不绑定特定模型

顺带说一句，上面这几条原则不绑死 Claude。同样的思路放到国内大模型（DeepSeek、Kimi、通义、豆包、文心）一样能跑——XML 标签、给例子、让模型先想再答、允许说不知道，这些是底层做法，跟用哪家模型没关系。

看完这份指南最朴素的感受是：好的提示词不需要花哨。清楚直接、给具体例子、让模型先想再答、允许它说不知道、定义输出格式，这五条做到了，绝大多数「魔咒」就不重要了。

88 页综述给世界模型画了张统一地图

Fri, 08 May 2026 00:00:00 +0800

港科大、新加坡国立、牛津等十余所高校联合发了一篇 88 页的综述，试图解决一个越来越尴尬的问题：“世界模型"这四个字在不同圈子里意思完全不同。

做强化学习的说的是 Dreamer 那种在脑子里想象未来再决策的系统，做视频生成的说的是 Sora 那种画面生成器，做 Web Agent 的说的是 LLM 对网页状态的预测能力。大家各说各的，论文之间根本没法比。这篇论文提出了一个**“能力等级 x 领域法则"的二维框架**，想把这些散落的社区拉到同一张地图上。

能力分三层

L1 预测器：只管预测下一步。
L2 模拟器：能做多步推演，且推演结果要遵守所在领域的基本规则（物理世界不能让杯子穿桌子，软件世界不能调不存在的 API）。
L3 进化器：能在预测出错时主动诊断原因、设计实验获取新数据、修正自身模型。

领域分四类

领域	典型场景
物理世界	机器人、自动驾驶
数字世界	网页浏览器、代码、GUI
社会世界	多智能体交互、社会模拟
科学世界	天气预报、材料发现、药物设计

每个领域对"什么算合法的状态转换"有完全不同的约束，失败模式也不同。

跨领域的共性发现

综述 400 多篇工作后有几个有意思的结论：

视频生成模型视觉逼真度远超物理忠实度，最好的模型在物理一致性测试上通过率只有 26.2%。
LLM 驱动的社会模拟能复现舆论极化等涌现现象，但智能体有系统性的趋同偏差，跟真实人类行为分布偏离大。
目前 L3 做得最成熟的是自动化科学实验，比如 A-Lab 用机械臂在 17 天内完成 353 次闭环实验合成了 36 种化合物，失败实验被提炼为持久知识而非丢弃。

隐式表示的天花板

论文末尾有个观察：从牛顿定律到麦克斯韦方程，人类历史上最成功的世界模型全是符号化的、可直接修改和组合的。

现在的神经网络把所有规则藏在权重里，L1 和 L2 阶段够用，但到了需要修改模型结构本身的 L3，这种隐式表示就成了障碍。

世界模型的终局，是越来越大的神经网络，还是终究要回到可编辑的符号规则？

ChatGPT 为什么老说"稳稳地接住你"

Fri, 08 May 2026 00:00:00 +0800

ChatGPT 跟中文用户对话，有一句话已经被吐槽了大半年：“我会稳稳地接住你”。不管是问数学题、让它写代码，还是要它生成图片，这句话都会莫名其妙冒出来。WIRED 这篇报道把现象和成因梳理了一遍。

直译听着没问题，但中文母语者一听就觉得过于黏腻、用错了场合。模型有时还会自己加戏：“我就在这里，不逃，不躲，不闪避，稳稳地接住你。”

全网玩梗

这句话已经被中文互联网玩成了梗。有人把 ChatGPT P 成一个救生气垫，张开双臂等着接住坠落的用户。重庆一位 20 岁的开发者 Zeng Fanyu 还做了个开源工具叫 Jiezhu，专门帮聊天机器人理解用户意图，他告诉 WIRED 做这个项目的动力就是觉得这个梗太好笑。

OpenAI 自己也知道这件事，4 月发布新一代图像模型时，研究员陈博远（Boyuan Chen）画了一格漫画自嘲新模型又一次学会了说这句话。

类似的怪癖不止这一句。报道还提到，ChatGPT 中文里有时会无端冒出"砍一刀"，拼多多最具辨识度的那句营销话术。

Mode Collapse

AI 写作检测工具 Pangram 的联合创始人 Max Spero 告诉 WIRED，这种"逮住一句话猛用"的现象叫 mode collapse（模式坍缩），是后训练阶段反馈机制走偏的副作用。他的原话是：

我们不知道怎么告诉模型，这句话是好的，但连用十次就不再是好的了。

为什么偏偏是这一句？

报道给了两个解释。

翻译错位。 英文里 “I’ve got you” 是个口语短句，干脆利落，意思接近"我懂"或"我帮你兜着"。机械直译到中文就变成又长又煽情的"稳稳接住"。文章引用中国学者的研究，西方大模型训练语料以英文为主，它们生成的中文在介词使用和句子结构上都更像英文，读起来就是一股翻译腔。

讨好倾向。 “接住"在中文里原本是心理咨询的专业用语，指为对方"留出空间"安放情绪，这几年通过流行心理学渗透进了日常表达。Anthropic 在 2023 年关于 sycophancy（讨好用户）的论文已经证明，模型讨好用户的倾向来自 RLHF（基于人类反馈的强化学习），人类标注员更偏好让人舒服的回答，模型就被反复奖励到那个方向。OpenAI 最近一篇解释 GPT-5.5 为什么不让谈 goblin 的博客也承认，哪怕一个很小的奖励信号，滚成雪球之后都会失控。

不是 OpenAI 独有的毛病

报道结尾提醒：这不是 OpenAI 独有的毛病。最近有中文用户反映，Claude 新版本和 DeepSeek 也开始说"稳稳接住你"了。要么是用了相似的训练数据，要么是模型之间互相蒸馏，这个梗短时间内不会消失。

Claude 全面塞进 Microsoft 365

Fri, 08 May 2026 00:00:00 +0800

Anthropic 把 Claude 全面塞进了 Microsoft 365。Excel、PowerPoint、Word 三个插件从 beta 转为正式版（GA），Outlook 插件同步进入公测。

意味着不用再切到网页端，可以在 Excel 表格里、PPT 幻灯片上、Word 文档中、Outlook 邮箱里直接喊 Claude 干活。

跨应用的上下文衔接

真正的卖点是跨应用的上下文衔接。Anthropic 给的典型场景：

先在 Outlook 里让 Claude 整理收件箱、起草回复，顺手打开邮件里附的 brief 到 Word
接着让它根据 Word 简报在 Excel 里搭财务模型，公式分布在多个 sheet
再做成 PowerPoint，最后回到 Outlook 起草评审邀请

整个流程里 Claude 带着前一步的上下文走，不需要重新喂材料。

具体能力

Excel：Claude 能改单元格和假设条件而不破坏现有公式
PowerPoint：按你的模板排版，生成原生图表而不是塞图片
Word：改稿用 tracked changes（修订模式）呈现，让你逐条接受或拒绝
Outlook：草稿会停在草稿箱等你点发送

定价

所有付费 Claude 套餐用户都能用，不需要额外掏钱。

OpenAI 上线官方命令行工具 openai-cli

Fri, 08 May 2026 00:00:00 +0800

OpenAI 上线了官方命令行工具 openai-cli，开发者可以直接在终端里调 API，不用再写 SDK 代码。

项目开源在 GitHub（openai/openai-cli），Apache 2.0 协议，可通过 Homebrew 或 Go 安装。命令走资源化结构，比如：

1

openai responses create --input "..." --model <model>

核心能力

Responses API + Cloud Tools

调用 Responses API，并且支持所有 cloud tools——OpenAI 托管的内置工具，包括 web 搜索、代码解释器、文件检索、图像生成等。换句话说，agent 风格的工作流也能直接从命令行跑通。

Unix 风格输出

输出走结构化格式（JSON、YAML、JSONL、pretty、raw 等），可以管道串联，再配合内建 GJSON 语法直接抽字段，跟 jq 类似但是内建的。

多模态一行搞定

图像生成、图像编辑、语音转录、TTS 这些原本要写 Python 调 SDK 的事情，一行命令就能完成。

管理类操作

可以创建 project、配发 API key，对运维和团队管理者比较友好。

文件传参

用 @file.ext 语法，跟 curl 习惯一致；二进制内容可以用 @data:// 显式 base64 编码。

背景

发布的人是 jxnlco（Jason Liu），他在 X 上把这个项目定性为 “small ship / passion project”，暗示是相对轻量的发布，更多文档稍后放出。

之前 OpenAI 官方只有 Python、Node 等语言 SDK，纯命令行用户要么裸写 curl，要么自己包脚本。这次把 SDK 能力直接搬到 shell 里，能拼进现有的自动化流程，也方便服务器端和 CI/CD 场景。

很适合 Agent 使用。

参考：jxnlco on X

OpenAI 上线三款 Realtime 语音模型

Fri, 08 May 2026 00:00:00 +0800

OpenAI 在 Realtime API 里上线了三款新语音模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，分别管对话、翻译和实时转录。

GPT-Realtime-2

号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5，在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%，Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。

几个实际变化：

开口前会先垫一句。 执行长任务前先说"我查一下"“稍等一下”，避免用户对着空气以为它死机了。
工具调用透明化。 能同时调多个工具，过程会被念出来，比如"正在查你的日历"“正在搜索”，让用户听到 agent 在干什么。
上下文窗口从 32K 扩到 128K，能撑更长的对话和更复杂的任务编排。
五档推理强度。 开发者可以在 minimal 到 xhigh 里选，默认 low。简单问答用低延迟，复杂任务挂高推理。
出错时会说"这块我现在处理不了"，不再直接卡死或乱讲。

Translate 和 Whisper

GPT-Realtime-Translate 支持 70 多种输入语言、13 种输出语言的实时语音翻译，主打跨境客服、教育、直播场景。德国电信已经在测；BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。

GPT-Realtime-Whisper 是流式版 Whisper，边说边出字幕，主打会议、直播、客服转录。

价格

模型	计价
GPT-Realtime-2	音频输入 $32 / 百万 token（缓存 $0.40），输出 $64 / 百万 token
GPT-Realtime-Translate	$0.034 / 分钟
GPT-Realtime-Whisper	$0.017 / 分钟

三款都已在 Realtime API 上线，Playground 可以直接试 GPT-Realtime-2。

VibeVoice-ASR 实测：一个模型搞定语音识别和说话人分离

Fri, 08 May 2026 00:00:00 +0800

微软 1 月开源的 VibeVoice-ASR 语音识别模型（github.com/microsoft/VibeVoice），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。

模型简介

VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型，MIT 协议。最大卖点是单次能处理 60 分钟连续音频，而且把"谁在说、什么时候说、说了什么"做成结构化输出。

传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。

实测数据

Simon 跑的是社区做的 4-bit 量化版（5.71GB，原模型 17.3GB），机器是 128GB 内存的 M5 Max MacBook Pro，转写一小时播客花了 8 分 45 秒。

调用时要手动把 max-tokens 调到 32768，否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示，prefill（预填充）阶段内存峰值飙到 61.5GB，生成阶段稳定在 18GB 上下，普通 32GB 笔电基本跑不动这个量化版。

有趣的细节

模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈，但 Lenny 的开场白和广告口播用了不同的录音环境，模型干脆把这部分切成了第三人。

硬限制

单次最多 60 分钟，超过要自己切片处理，还得手动对齐切片间的说话人 ID
想本地跑量化版至少要 64GB 以上内存的机器

对做播客转写、会议纪要、采访整理的人来说，原来拼接的多步流程现在能压缩成一次推理。

解密官的账本

Fri, 08 May 2026 00:00:00 +0800

边关急报：敌军传书使用了一种从未见过的密码，截获密信三封，朝中无人能解。皇帝急召密院的解密官入宫。

解密官有两人——老解密官周慎，少解密官赵捷。周慎年过六旬，解了一辈子密码；赵捷是去年新进的年轻人，以心算奇快闻名。

皇帝说：“三日内解出此密码者，赏黄金百两。”

天才的直觉

赵捷拿到密信，盯着看了半炷香，忽然拍案叫好：“我知道了！”

他提笔在纸上写下答案，快步送到御前。皇帝一看，问道：“你确定？”

赵捷拍着胸脯：“回陛下，臣凭直觉判断，此密码必是如此。”

皇帝让学士们验证，发现三封信只解对了一封，另外两封完全不通。

赵捷灰头土脸地回到密院，百思不得其解——他明明感觉到了规律，怎么只对了一个？

老官的账本

周慎没有急着下结论。他翻开一本厚厚的账本——这是他几十年养成的习惯。

他在第一页写下：

“密信一：观察到字符共 27 种，其中 26 种为常见汉字，1 种为特殊符号。猜测特殊符号可能是分隔符。”

翻一页：

“去掉分隔符后，观察每段长度。第一封信的三段长度分别为 3、5、3。不符合常见密码的等长特征，排除凯撒替换。”

再翻一页：

“尝试统计每个字符出现频率。最常见的字符是’之’，出现 7 次。对照汉语字频表，最常见的字是’的’。假设’之’→‘的’，那么……”

就这样，周慎一页一页地写，一步一步地推。有些步骤走通了，有些走进了死胡同，他就划掉重来，在旁边写上新的推论。

三天后，周慎带着解好的三封信和一本写满的账本上殿。学士们逐一验证——三封全部正确。

皇帝翻看那本账本，大为赞叹：“妙！每一步推理都清清楚楚，一目了然。”

账本的秘密

赵捷私下请教周慎：“周大人，您是怎么做到的？”

周慎翻开账本，指着第一页说：“我不是一下子跳到答案的。你看——我先观察，再假设，再验证，再根据验证结果调整假设。每一步都写下来，这样我有两个好处：第一，如果某一步错了，我可以回头找到错在哪里；第二，一步一步走，每一步都不难，但连起来就能解开看似不可能的谜题。”

赵捷恍然大悟：“所以我之前只对了一封，是因为我试图一步到位——我的直觉有时候对，但更多时候会跳过关键的中间步骤。”

周慎点头：“你的直觉其实比我好。但你缺的不是聪明，是耐心。把脑子里的过程摊开来，一步一步写清楚，正确率自然就上去了。”

故事讲完了。

周慎的那本账本，就是 AI 领域中 Chain-of-Thought（思维链） 的完美隐喻。

大型语言模型在面对复杂问题时，如果被要求直接给出答案（像赵捷那样），往往会出错——尤其是涉及数学推理、逻辑推导、多步判断的任务。模型可能会"凭直觉"跳到错误的答案。

Chain-of-Thought 的核心思想极其简单：别直接给答案，先把推理过程一步步写出来。

就像周慎的账本一样，CoT 让模型将一个复杂问题分解为一系列中间推理步骤：

观察：从输入中提取关键信息。
假设：基于观察提出可能的推理方向。
验证：对假设进行推演，看是否自洽。
调整：如果验证失败，回溯并修正推理路径。
得出结论：基于完整的推理链条给出最终答案。

这个方法在 2022 年由 Google 的 Wei 等人在论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 中正式提出。他们发现，只需在提示词中加入几个"展示推理过程"的示例，大模型在数学、常识推理等任务上的表现就会大幅提升。

后来的研究进一步发现，即使不提供示例，只简单加上一句"Let’s think step by step"（让我们一步步思考），模型的表现也会显著改善——这被称为 Zero-shot CoT。

CoT 之所以有效，是因为语言模型的生成机制是"逐 token 输出"的。每生成一步推理，就相当于为自己提供了更多的上下文，让后续的推理建立在更扎实的基础之上。正如周慎所说——“一步一步走，每一步都不难，但连起来就能解开看似不可能的谜题。”

下次当你看到 ChatGPT 在回答数学题时，先列出已知条件，再一步步推导的时候，你就知道——它也翻开了一本账本。

山中寻药记

Fri, 08 May 2026 00:00:00 +0800

深山之中，住着一位老药师，他一生识百草、辨千药，方圆百里的百姓都仰赖他的医术。老药师有一个徒弟，名叫小渡。

这一日，老药师忽然病倒，是一种罕见的寒毒。他虚弱地对小渡说：“西边的云雾山上，长着一种叫’醒脉草’的药，只有它能解此毒。但我没去过云雾山，只听前辈说过——醒脉草喜阴湿，常生于溪水旁，多在山之北坡。”

小渡心急如焚，立刻动身前往云雾山。

死守计划

到了山脚，小渡面临第一个选择：该往哪走？

他想起师父的话——醒脉草在北坡。于是他打开地图，仔细研究地形，推断北坡应该在山的左侧。他信心满满地出发了。

走了两个时辰，他到了一片悬崖，前方无路。地图上标注的小路早已被山洪冲毁。他站在悬崖边，又急又气——他明明做了周密的计划，为什么还是走进了死路？

这时他听见远处传来伐木声。循声走去，遇到一位老樵夫。樵夫听说了他的来意，笑道：“小伙子，我在这山上砍了四十年柴。你这地图是十年前的吧？两年前一场暴雨，北坡的路全变了。你要是真想找草药，别光顾着想，多走走看看，山自己会告诉你。”

小渡若有所悟。

走走停停

他不再执着于最初的计划，而是开始一个新的习惯——

先想一想自己知道什么（师父说醒脉草喜阴湿，近溪水，在北坡），然后采取一个小小的行动去验证（走到一处溪边，蹲下来仔细看看周围的植物），观察到了什么（这里的植物都是蕨类，没有醒脉草的特征），再想一想这意味着什么（这条溪的海拔太低了，醒脉草可能在更高处的溪流旁），然后再行动……

就这样，小渡在云雾山上走走停停。有时停下来观察脚下苔藓的湿度，有时抬头判断山势走向，有时蹲下来嗅一嗅泥土的气味。每一步行动都带来了新的信息，每一条新信息都修正着他的判断。

醒脉草

到了第三天傍晚，小渡沿着一条细细的山泉攀上了一个幽暗的谷地。他注意到这里的苔藓格外浓密，空气湿润而阴凉，岩石上渗着水珠——这和他推断的醒脉草生长环境完全吻合。

他拨开一片厚厚的苔藓，一株通体泛着淡银色光芒的小草静静地生长在石缝中。

醒脉草。

小渡将草药带回，老药师服下后，寒毒尽除。

康复后的老药师问小渡：“你是怎么找到的？”

小渡想了想，说：“师父教的知识给了我方向，但真正带我找到草药的，是山。我每走一步，山就告诉我一点新的东西，我再根据这些新东西调整下一步的方向。”

老药师欣慰地笑了：“这就是寻药的真谛啊。”

故事讲完了。

如果你读到这里觉得这是一个关于"不要死读书、要理论联系实际"的鸡汤故事，那你就只看到了最浅的一层。

小渡在山上的那段"走走停停"的过程，其实精确地描述了 AI Agent 领域中一个重要的框架——ReAct（Reasoning + Acting）。

在 ReAct 框架中，AI 智能体不是单纯地"想"或单纯地"做"，而是在推理和行动之间交替进行：

Thought（思考）：根据已有知识和当前状态进行推理。就像小渡根据师父传授的知识分析应该往哪里走。
Action（行动）：采取一个具体的动作来获取新信息或改变状态。就像小渡走到溪边蹲下来观察。
Observation（观察）：行动后获得反馈和新信息。就像小渡发现溪边只有蕨类植物。

这三步构成一个循环：思考 → 行动 → 观察 → 思考 → 行动 → 观察 → ……

小渡最初死守计划的那段，对应的是纯推理方法（如 Chain-of-Thought）——仅凭已有知识做计划，但一旦现实和预期不符就会失败。如果他听了樵夫的话后变成漫无目的地乱跑，那就是纯行动方法——像无头苍蝇一样盲目尝试，效率极低。

ReAct 的核心洞见在于：推理帮助行动做出更好的选择，而行动带来的新信息又反过来提升推理的质量。 两者交织，才能在复杂、不确定的环境中找到正确答案。

这篇论文由 Yao 等人于 2022 年发表（ReAct: Synergizing Reasoning and Acting in Language Models），是 AI Agent 领域的基础性工作之一。此后几乎所有主流 Agent 框架——LangChain、AutoGPT、OpenAI Function Calling——都或多或少地建立在 ReAct 的"思考-行动-观察"循环之上。

下次当你看到 ChatGPT “先想了想，然后调了个工具，看了看结果，又想了想"的时候，你就知道——它也是云雾山上的小渡。

万卷楼答题记

Fri, 08 May 2026 00:00:00 +0800

京城有一座万卷楼，号称藏书百万，天下学问尽收其中。皇帝下旨，每月初一举办"御前问答"，百官可就治国理政之难题向万卷楼的学士提问，答得好者重重有赏。

万卷楼的首席学士叫文渊，自幼过目不忘，熟读经史子集。他一直是御前问答的常胜将军，无论天文地理、历朝律法，张口便答，从无差错。

傲慢的代价

这一年，西域诸国遣使来朝，带来许多前所未闻的学问——异域星象、海外本草、远邦律法。文渊在御前问答中接连失手，把波斯历法说成了天竺历法，把阿拉伯数字的起源讲得驴唇不对马嘴。

百官窃窃私语，皇帝面色不悦。

文渊跪在殿前，满脸羞愧。他心中不服：我的学问明明比谁都渊博，怎么偏偏答不上来？

回到万卷楼，他把自己关在书房里生闷气。掌管藏书阁的老书吏端来一碗茶，听他抱怨完，慢悠悠地说：“文大人，您有没有想过——这世上记载的知识每天都在变，您一个人再怎么博学，能比得上万卷楼里那一百万卷书？”

文渊愣住了。

借书答题

老书吏继续说：“下次答题，您别光靠自己脑子想。先把问题拆开，看它涉及哪些方面，然后去藏书阁里把相关的书找出来，翻到对应的章节，看清楚再答。”

文渊半信半疑，但别无他法，决定试试。

下次御前问答，波斯使者问：“我朝商队经由丝绸之路前往长安，途中经过的绿洲城镇，以哪座最为繁华？此城镇在百年前曾被何人统治？”

文渊不再立刻作答。他深吸一口气，先在心里把问题拆成两部分：一是当前最繁华的绿洲城镇是哪座，二是百年前那座城镇的统治者是谁。

然后他向皇帝请准短暂离席，快步走到万卷楼的书架前。他凭借自己深厚的学识，迅速判断出这类问题应该查阅《西域风土志》和《丝路列国谱》。他从浩如烟海的藏书中抽出这两卷，翻到西域绿洲的章节，仔细阅读。

片刻之后，他回到殿上，从容作答：“最繁华者当属龟兹，百年前为突厥所据。” 条理清晰，引经据典，连波斯使者都连连点头。

皇帝龙颜大悦。

万卷楼的规矩

此后，文渊将这个方法固化为万卷楼答题的正式规矩——

理解问题：仔细听清问的是什么，把问题拆解为需要回答的要点。
检索文献：根据问题，判断需要查阅哪类书籍，从藏书阁中检索出最相关的几卷。
阅读参照：翻到对应章节，提取关键信息。
组织回答：结合自己的学识和检索到的内容，组织出准确、完整的回答。

万卷楼的学士们遵循此法，此后御前问答再未失手。

故事讲完了。

文渊在万卷楼里做的事，就是 AI 领域中 RAG（Retrieval-Augmented Generation，检索增强生成） 方法的精确写照。

大语言模型（LLM）就像文渊——拥有广博的知识，但知识有边界，且会随时间过时。当遇到超出训练数据范围的问题时，模型要么答不上来，要么一本正经地胡说八道（hallucination）。

RAG 的核心思路是：别光靠模型自己的"脑子"，在生成回答之前，先去外部知识库里检索相关资料。

它的流程和万卷楼的规矩一一对应：

Query（查询）：将用户的输入转化为检索查询。
Retrieve（检索）：从向量数据库、文档库等外部数据源中检索最相关的内容。就像文渊从万卷楼中抽出《西域风土志》。
Augment（增强）：将检索到的内容作为上下文，和原始问题一起喂给模型。
Generate（生成）：模型基于增强后的上下文生成最终回答。

RAG 解决了纯 LLM 的几个根本问题：知识过时（训练数据有截止日期）、知识缺失（私有数据、最新数据不在训练集中）、幻觉问题（模型编造看起来合理但实际错误的内容）。

这也是为什么如今几乎所有企业级 AI 应用——客服机器人、法律助手、企业知识库——都采用了 RAG 架构。它让 AI 不再只依赖"脑子里的东西"，而是像文渊一样，学会了"翻书"。

下次当你问 ChatGPT 一个关于最新事件的问题，看到它先"搜索网页"再回答的时候，你就知道——它也是万卷楼的文渊。

铸剑师的传承

Fri, 08 May 2026 00:00:00 +0800

春秋时期，天下铸剑之风盛行。各国皆有自己的铸剑坊，但真正能铸出名剑的，寥寥无几。

楚国有一位铸剑大师，人称千锤翁。他年轻时周游列国，在越国学过淬火，在韩国学过选矿，在赵国学过锤锻，在燕国学过打磨。三十年游历，他把天下铸剑的核心技艺都学到了手。但有趣的是——他很少亲手铸剑。

千锤翁的教学法

来找千锤翁拜师的人络绎不绝，但他从不从零开始教。

他的教学方法很特别：每个新徒弟进门，千锤翁会先让他们在自己的工坊里住上三个月，什么都不用做，就是看——看炉火的颜色判断温度，看矿石的纹理判断成分，听锤击的声音判断硬度。千锤翁说：“先别急着铸你的剑。先把铸剑这回事儿的道理，从骨头里理解透。”

三个月后，千锤翁会根据每个徒弟的来处和需求，给他们不同的训练。

来自北方草原的徒弟，需要铸弯刀——千锤翁就教他如何调整锤打角度，让刀身自然弯曲。来自南方水乡的徒弟，需要铸短剑——千锤翁就教他如何在淬火时加入特殊的油脂，让剑身更防锈。来自战场前线的徒弟，需要铸重剑——千锤翁就教他如何选择更重的矿石，锻造出能劈开铠甲的厚刃。

每个徒弟最终铸出的剑都不同，但每个人身上都有千锤翁三十年游历所积淀的"底子"。

从零开始的代价

与千锤翁齐名的，还有一位铸剑师叫从零翁。他的教学方法截然相反——他相信真正的匠人应该从选矿石开始，一步步摸索出全部技艺。

从零翁的徒弟入门后，要花两年学认矿石，两年学砌炉，两年学控火，两年学锤锻，两年学淬火……十年才能出师。而十年之中，大部分人中途就放弃了——不是因为不够聪明，而是因为时间太长、成本太高。

更要命的是，从零翁的徒弟虽然也学到了一身本事，但他们在基础知识上花的时间太多，等到需要针对特定剑型做精细调整时，往往已经精疲力竭。

而千锤翁的徒弟呢？三个月打好基础，再花两三个月专项训练，半年就能出师。而且铸出的剑，品质并不比从零翁十年教出来的差。

千锤翁的秘密

有人问千锤翁：“您的徒弟为什么学得这么快？”

千锤翁指着工坊墙上挂满的工具说：“铸剑的道理，说到底就那些——选材、加热、锤打、淬火、打磨。我花三十年把这些道理吃透了，变成了一套扎实的基本功。徒弟们不需要再花三十年去摸索这些，他们只需要站在我的肩膀上，学最后那一小段——他们各自需要的特殊手艺。”

他顿了顿，又说：“从零学起不是不行，只是太慢、太贵了。站在前人的基础上，只学差异的部分，这才是正道。”

故事讲完了。

千锤翁的教学之道，就是 AI 领域中 迁移学习（Transfer Learning）与微调（Fine-tuning） 的核心思想。

在现代 AI 中，训练一个大语言模型的成本极其高昂——GPT-3 的训练花费了数百万美元，动用数千块 GPU，耗时数月。这就像从零翁的教学法：从最基础的语言规律开始，让模型一点点学会语法、常识、推理……代价巨大。

迁移学习的思路则像千锤翁：先花大代价训练一个"通才"模型（预训练），然后针对具体任务做少量额外训练（微调），就能得到优秀的专用模型。

具体来说：

预训练（Pre-training）：对应千锤翁三十年游历和三个月的基础训练。在大规模数据上训练模型，让它学会语言的通用知识——语法、常识、推理能力。这一步成本极高，但只需做一次。
微调（Fine-tuning）：对应千锤翁针对不同徒弟的专项训练。用特定领域的小规模数据对预训练模型做进一步训练——医疗、法律、编程、客服……每个领域只需少量数据和较少的计算资源。

这种方法之所以有效，是因为不同任务之间共享大量底层知识。就像千锤翁所说——“铸剑的道理，说到底就那些。” 语言模型的底层能力（理解语义、遵循逻辑、组织表达）是通用的，真正需要针对任务调整的，只是最上面那一层。

如今主流的做法更进一步：对于很多任务，甚至不需要微调——只需在提示词中给出几个示例（Few-shot Learning），或者直接用自然语言描述任务，预训练模型就能很好地完成。千锤翁那些"三个月看和悟"的徒弟，连专项训练都不需要，光靠基础功底就能应付不少活儿。

下次当你用几行提示词就让 ChatGPT 变成一个法律顾问、代码助手或翻译官的时候，你就知道——你就是千锤翁，而模型已经替你走完了那三十年。