<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>技术 on 周先森的小站</title><link>https://332002.xyz/categories/%E6%8A%80%E6%9C%AF/</link><description>Recent content in 技术 on 周先森的小站</description><generator>Hugo -- gohugo.io</generator><language>zh</language><lastBuildDate>Wed, 13 May 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://332002.xyz/categories/%E6%8A%80%E6%9C%AF/index.xml" rel="self" type="application/rss+xml"/><item><title>AI 会引发大规模失业？吴恩达说这是个恐慌故事</title><link>https://332002.xyz/p/ai-unemployment-myth/</link><pubDate>Wed, 13 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/ai-unemployment-myth/</guid><description>&lt;p&gt;吴恩达老师观点：所谓&amp;quot;AI 会引发大规模失业&amp;quot;，纯粹是一种不负责任的恐慌故事。&lt;/p&gt;
&lt;p&gt;软件工程师都快被 AI 工具折腾死了吧？可现实却是工程师招聘市场依旧火爆，美国失业率稳稳地停在 4.3%，没半点要崩的样子。每一波技术浪潮，最终创造出来的新岗位远比被干掉的多得多，这次也不会例外。&lt;/p&gt;
&lt;h2 id="ai-抢饭碗这个故事为啥这么流行"&gt;&amp;ldquo;AI 抢饭碗&amp;quot;这个故事为啥这么流行
&lt;/h2&gt;&lt;p&gt;背后的三股推动力：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;一是前沿 AI 公司特愿意把自己技术吹得越神越好。&lt;/strong&gt; 一项技术能干掉一个年薪十万的员工，那卖你一万美元的订阅费是不是就显得便宜了？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;二是企业自己也爱把裁员说成是&amp;quot;AI 提效&amp;rdquo;。&lt;/strong&gt; 毕竟比承认&amp;quot;疫情期间招人招过头了&amp;quot;听着体面多了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;三是媒体天然就偏爱恐慌故事。&lt;/strong&gt; &amp;ldquo;AI 会让人类灭绝&amp;rdquo;，这标题点击率总比&amp;quot;AI 会改变你的工作内容&amp;quot;高出几个数量级。&lt;/p&gt;
&lt;h2 id="历史上的类似恐慌"&gt;历史上的类似恐慌
&lt;/h2&gt;&lt;p&gt;他举了些历史上类似的群体恐慌故事：比如公众对核电站安全的过度焦虑，直接导致核电发展停滞几十年；60 年代&amp;quot;人口炸弹&amp;quot;的恐惧，让很多国家祭出了严厉的人口控制政策；再比如对脂肪的恐惧，导致政府推广了几十年的高糖低脂饮食。这些听起来有点荒唐，但当年每一个故事都非常流行，并实实在在影响了无数人的生活。&lt;/p&gt;
&lt;h2 id="真正会发生什么"&gt;真正会发生什么
&lt;/h2&gt;&lt;p&gt;AI 不会带来失业末日（jobpocalypse），而会带来一场就业狂欢（jobapalooza）。大量 AI 工程师的岗位即将诞生，而且还不止是在传统科技公司里。其他非 AI 岗位的技能需求也会发生重大变化。对普通人来说，现在正是进入 AI 行业、或者掌握 AI 工具的最佳时机。&lt;/p&gt;</description></item><item><title>Dario Amodei 2.8万字长文：强大 AI 出现之后的世界</title><link>https://332002.xyz/p/machines-of-loving-grace/</link><pubDate>Mon, 11 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/machines-of-loving-grace/</guid><description>&lt;p&gt;Anthropic 创始人 Dario Amodei（Claude 这家大模型背后的人）写过一篇 2.8万字的长文，叫 Machines of Loving Grace（直译「充满爱的机器」）。&lt;/p&gt;
&lt;p&gt;这篇文章在英文 AI 圈被反复引用，因为它做了一件大部分 AI 公司高管不太愿意做的事——他不只讲风险，而是系统性地写「假如真正强大的 AI 真的出现，世界变好的路径长什么样」。中文圈摘过几段，但少有人讲过整篇本身，更没人提炼出「普通人能用什么」。下面梳理。&lt;/p&gt;
&lt;h2 id="压缩的21世纪"&gt;「压缩的21世纪」
&lt;/h2&gt;&lt;p&gt;先说他这篇文章的核心说法，叫「压缩的21世纪」。&lt;/p&gt;
&lt;p&gt;意思是：如果真正强大的 AI 出现，它能把人类生物学家原本要花50到100年才能做出的进步，压到5到10年内完成。他给「真正强大的 AI」下了具体定义：在生物、编程、数学、工程上比诺贝尔奖得主聪明，能自主完成几小时到几周的任务，几百万个独立实例同时跑、速度比人类快几十倍。他用一句话总结叫「数据中心里的天才国度」。&lt;/p&gt;
&lt;p&gt;他认为 AI 真正强大之后影响最大的有5个领域，挨个讲。&lt;/p&gt;
&lt;h2 id="五大影响领域"&gt;五大影响领域
&lt;/h2&gt;&lt;h3 id="生物医学"&gt;生物医学
&lt;/h3&gt;&lt;p&gt;这是他最有把握的一块。在他的设想里，大部分自然感染病可以可靠预防或治疗，多数癌症的死亡率显著下降，阿尔茨海默症得到预防，糖尿病、肥胖、心脏病、自身免疫病这些慢病也会大幅好转，健康寿命可能再延长一倍。&lt;/p&gt;
&lt;p&gt;为什么是这块？Dario 的解释是，生物问题足够「可计算化」，很多突破靠从海量数据里找规律，正好是 AI 最强的事。&lt;/p&gt;
&lt;h3 id="神经科学和心理健康"&gt;神经科学和心理健康
&lt;/h3&gt;&lt;p&gt;Dario 设想 PTSD、抑郁、精神分裂、成瘾这些都能得到根治或显著缓解，自闭症、智力障碍也会有有效干预，普通人的日常情绪和认知功能基线也会改善。他特别提到一句很有意思的话：现代 AI 解释性研究（搞明白模型内部在干什么）和神经科学家研究大脑问的是同一类问题。所以 AI 反过来帮人类理解大脑，是双向促进的。&lt;/p&gt;
&lt;h3 id="经济发展和贫困"&gt;经济发展和贫困
&lt;/h3&gt;&lt;p&gt;设想里，医疗进步会扩散到现在的发展中世界，最贫困地区可能在5到10年内追上现在中等收入国家的水平，农业可能出现「第二次绿色革命」，气候变化的技术应对也会加速。但他自己明确说这块没那么有把握。技术能造出来不等于能均衡分配，腐败、制度差异、人本身愿不愿意接受新技术，这些都不是 AI 能直接解决的。&lt;/p&gt;
&lt;h3 id="国际治理"&gt;国际治理
&lt;/h3&gt;&lt;p&gt;这块他写得最谨慎，整章主要在列疑虑而不是设想，本文就不展开了。&lt;/p&gt;
&lt;h3 id="工作和意义"&gt;工作和意义
&lt;/h3&gt;&lt;p&gt;这一块跟普通人最相关。&lt;/p&gt;
&lt;p&gt;他的看法是，短期内，人类还能靠「比较优势」在经济里保持相关性。意思是哪怕 AI 在每件事上都比你强，人和 AI 协作仍然比 AI 单干便宜，所以人还有事干。长期看，如果 AI 在几乎所有任务上都超过人，社会需要重新设计，可能是 UBI（全民基本收入），也可能是别的机制。&lt;/p&gt;
&lt;p&gt;他特别讲了一句让我印象很深的话：「人生意义大部分来自人和人的关系，不是经济劳动。今天就有大量没经济价值的活动让人活得有意义，未来这个比例只会更大。」&lt;/p&gt;
&lt;h2 id="三个普通人现在能用的判断"&gt;三个普通人现在能用的判断
&lt;/h2&gt;&lt;p&gt;读完整篇，我提炼出3个普通人现在能用的判断。&lt;/p&gt;
&lt;h3 id="判断一哪些领域最先变"&gt;判断一：哪些领域最先变？
&lt;/h3&gt;&lt;p&gt;Dario 自己最有信心的是生物医学这种「问题足够可计算化」的领域。放大到普通人，任何「主要靠处理文字、信息、数据」的工作都会先被波及。一个简单的自检：你日常工作里有多少时间是在屏幕前处理信息？比例越高，AI 影响来得越快。&lt;/p&gt;
&lt;h3 id="判断二你工作的哪部分会被压缩"&gt;判断二：你工作的哪部分会被压缩？
&lt;/h3&gt;&lt;p&gt;注意 Dario 用的词是 compress——压缩，不是消失。他的逻辑是 AI 会把「重复性、可结构化」的部分加速，而需要判断、需要拍板、需要跟人协调的部分还在。落到自己身上，把工作拆成具体任务清单，挨个问「这一项 AI 现在能做几成？」流程性的部分先压缩，关系性、判断性的部分先留下。&lt;/p&gt;
&lt;h3 id="判断三哪些技能反而升值"&gt;判断三：哪些技能反而升值？
&lt;/h3&gt;&lt;p&gt;这是 Dario 没明说但暗含的：AI 越强，能「组织 AI、判断 AI、修正 AI」的人越值钱。具体讲，把模糊问题说成 AI 能听懂的具体描述、跨领域整合信息、在不确定情境下做决定、跟真人深度沟通，这些都升值。&lt;/p&gt;
&lt;h2 id="最后"&gt;最后
&lt;/h2&gt;&lt;p&gt;Dario 自己在文章里反复强调：「这一切都是猜测」「我说的每件事都很容易被证明是错的」「细节几乎肯定会错」。他写这篇不是为了预言未来，是因为他觉得 AI 圈不能光讲风险，得有「我们到底在为什么而努力」的正面图景。&lt;/p&gt;
&lt;p&gt;文章最后他引了一本科幻小说，他说人类社会真正能稳定运行的方向，是同情、合作、自主、公平这些价值。AI 不会把这些方向反转，AI 只会加速这些价值的实现。&lt;/p&gt;
&lt;p&gt;当然 Dario 这两年动不动就说一下很让人「震惊」的话，以至于黄仁勋最近都公开说不同意他的一些看法。还有他对我们有一些敌意，这也是事实。&lt;/p&gt;
&lt;p&gt;我们就是冷静的去学习和吸收那些对我们有帮助的信息。&lt;/p&gt;</description></item><item><title>OpenAI 提示词指南里最被低估的一条：想要选项，就直说</title><link>https://332002.xyz/p/openai-prompt-options/</link><pubDate>Mon, 11 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/openai-prompt-options/</guid><description>&lt;p&gt;OpenAI 自己写了一份「ChatGPT 提示词最佳实践」放在帮助中心里。这份文档里有一条建议，看起来朴素到像废话，但 90% 的普通 AI 用户都没用过——&lt;/p&gt;
&lt;p&gt;如果你想要选项，就直说。&lt;/p&gt;
&lt;p&gt;原话给的例子是：「请给我两种不同的方式来呈现这份报告。」&lt;/p&gt;
&lt;p&gt;听起来太简单了对不对？但这条规则在文案、营销、写作行业是基础打法——专业人士极少让 AI 只给一个版本。因为「第一个版本」几乎从来不是最好的版本。&lt;/p&gt;
&lt;h2 id="为什么不让-ai-多给几个版本"&gt;为什么不让 AI 多给几个版本？
&lt;/h2&gt;&lt;p&gt;你回想一下自己平时怎么用 AI——&lt;/p&gt;
&lt;p&gt;是不是问一个问题，AI 给一个答案，看着差不多就用了；不满意的话再改 prompt 重新问，反复改三五轮才得到能用的版本。&lt;/p&gt;
&lt;p&gt;换个写法——「同一个问题，让 AI 一次给三个不同方向的版本」——整件事的效率立刻不一样。&lt;/p&gt;
&lt;p&gt;为什么这一招比反复改 prompt 强？&lt;/p&gt;
&lt;p&gt;因为 AI 给的「第一个答案」不一定是最好的，只是「最像标准答案」的。&lt;/p&gt;
&lt;p&gt;LLM 工作的方式是基于概率挑下一个词，给你的第一份草稿往往是中位数水平——足够安全，但也足够平庸。&lt;/p&gt;
&lt;p&gt;你让它一次出三个版本，等于让它把「保险版本」「冒险一点的版本」「另一个角度的版本」都呈现出来。看到这三个，你才知道哪个真正贴近自己想要的。&lt;/p&gt;
&lt;p&gt;更妙的是——你看到三个版本之后，往往会发现自己原本根本不知道想要什么。这三个版本帮你定位了你真正的偏好。&lt;/p&gt;
&lt;h2 id="三个维度按场景挑一个"&gt;三个维度，按场景挑一个
&lt;/h2&gt;&lt;p&gt;那「让 AI 出三个版本」具体怎么写？三个常用维度，按场景挑一个。&lt;/p&gt;
&lt;h3 id="风格维度"&gt;风格维度
&lt;/h3&gt;&lt;p&gt;适合写邮件、写文案、做沟通。让 AI 给你一个保守版、一个中性版、一个直接的版本。比如让 AI 写「拒绝合作伙伴」的邮件——保守版会很客气，中性版会平实地说明原因，直接版会简短果断。哪种合适，看你跟对方的关系定。&lt;/p&gt;
&lt;h3 id="长度维度"&gt;长度维度
&lt;/h3&gt;&lt;p&gt;适合写简介、做摘要、写自我介绍。让 AI 给你一个 50 字版、一个 150 字版、一个 300 字版。短的适合朋友圈和简历，中长的适合发邮件，长的适合演讲稿。&lt;/p&gt;
&lt;h3 id="角度维度"&gt;角度维度
&lt;/h3&gt;&lt;p&gt;适合做决策、想标题、做产品文案。让 AI 给你「数据派」「故事派」「逻辑派」三种切入角度。比如想给一篇文章起标题——数据派会用数字开头，故事派会从一个人物切入，逻辑派会直接亮观点。&lt;/p&gt;
&lt;h2 id="一个具体场景"&gt;一个具体场景
&lt;/h2&gt;&lt;p&gt;你刚换了工作，需要在朋友圈写一段简短的「转行通知」。&lt;/p&gt;
&lt;p&gt;老办法：你随便问 AI，「帮我写一段朋友圈说我换工作了」。AI 给一段，你看了觉得太煽情或太敷衍，再改 prompt：「再正式一点」「再简短一点」⋯⋯反复改好几次。&lt;/p&gt;
&lt;p&gt;新办法：你一次说：「帮我写三个版本，第一个轻松一点像聊天，第二个稍正式适合给前同事看，第三个非常简短三句话以内。」&lt;/p&gt;
&lt;p&gt;AI 给完，你往往会发现：「原来我真正想要的是第二个版本里第二句的表达，加上第三个版本的精简感。」自己组合一下，就成了。&lt;/p&gt;
&lt;p&gt;整个过程从「你跟 AI 试错」变成「你看 AI 给的菜单挑」。&lt;/p&gt;
&lt;h2 id="进阶玩法"&gt;进阶玩法
&lt;/h2&gt;&lt;p&gt;进阶玩法是再加一句——&lt;/p&gt;
&lt;p&gt;「请给完三个版本之后，从读者角度点评每一个版本的优缺点。」&lt;/p&gt;
&lt;p&gt;AI 会扮演评论家，把它给的三个版本各自的好坏说清楚。你不止看到三个选项，还能看到每个选项背后的逻辑。&lt;/p&gt;
&lt;p&gt;这一招对完全不懂某个领域的人特别有用。比如你不懂法律，让 AI 起一份回执函时给你三个版本加各自风险点，等于免费多了一个顾问视角。&lt;/p&gt;
&lt;p&gt;它本质上是在改变你跟 AI 协作的姿势：不是「我问，它答」，而是「我给一个题目，它给我一个选择空间」。&lt;/p&gt;</description></item><item><title>最懂大模型的人教你写提示词</title><link>https://332002.xyz/p/anthropic-prompt-guide/</link><pubDate>Mon, 11 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/anthropic-prompt-guide/</guid><description>&lt;p&gt;来看看最懂大模型的人教你写提示词，网上的技巧大多都没用。&lt;/p&gt;
&lt;p&gt;我最近看到一份大模型厂商内部的 AI 提示词指南，觉得很值得讲一讲。&lt;/p&gt;
&lt;p&gt;写它的人 Alex Albert，是做 Claude 的 AI 公司 Anthropic 在2023年招进去的内部第一位提示词工程师，原职衔甚至有点不正经，叫 prompt engineer and librarian（提示词工程师加图书管理员）。这两年他升到 Anthropic 开发者关系负责人，对外讲 Claude 怎么用基本都是他的活，这份官方指南也是他的核心维护内容。可以说，他大概是最了解 AI 大模型怎么读提示词的那一类人。&lt;/p&gt;
&lt;p&gt;看完之后我回头翻了翻网上各种「提示词课」的笔记，发现一件挺尴尬的事：网上传的那些「魔咒式技巧」（「我会给你50美元小费」、「你是顶尖专家」之类），从模型厂商内部视角看大多数没用，有些反而让答案变差。&lt;/p&gt;
&lt;p&gt;这份指南讲的是模型内部如何看待你写的提示词、什么真正影响它的输出。能拿到这种「模型厂商内部视角」的资料并不多见。&lt;/p&gt;
&lt;h2 id="没用的技巧"&gt;没用的技巧
&lt;/h2&gt;&lt;p&gt;先说网上传得很广、但官方指南明确说没用或反作用的几条。&lt;/p&gt;
&lt;h3 id="误区一激励式提示词"&gt;误区一：激励式提示词
&lt;/h3&gt;&lt;p&gt;「我会给你50美元小费」「做不好就处罚你」这种套路，过去一两年在国外社交圈传得到处都是。Anthropic 内部测过，对最新的 Claude 模型，小费、威胁、装客气这些「小把戏」基本不影响输出质量。模型不在乎你赏不赏它，它只在乎你说清没说清。&lt;/p&gt;
&lt;h3 id="误区二你是一位-x-行业20年专家开头万金油"&gt;误区二：「你是一位 X 行业20年专家」开头万金油
&lt;/h3&gt;&lt;p&gt;我们之前介绍过一项研究：在事实问答任务上，加这种「专家身份」反而把准确率从七成多拉到不到七成。官方指南里也讲明白，角色扮演型提示词在写作、风格化这种场景里有用，做事实任务别滥用。&lt;/p&gt;
&lt;h3 id="误区三越长越复杂越好的提示词模板"&gt;误区三：越长越复杂越好的提示词模板
&lt;/h3&gt;&lt;p&gt;有些课程教人用三百字模板包一个本来三十字就能说清的请求。指南里的第一原则就一句话：直接、明确说要什么，不要绕弯子。模型不需要被催眠，它需要的是清楚的指令。&lt;/p&gt;
&lt;h3 id="误区四魔咒关键词"&gt;误区四：「魔咒关键词」
&lt;/h3&gt;&lt;p&gt;比如英文圈传得很玄的 &amp;ldquo;think harder&amp;rdquo;（想得更努力）、&amp;ldquo;work very carefully&amp;rdquo;（仔细工作）、&amp;ldquo;this is very important&amp;rdquo;（这件事特别重要）这种词。简单的「先一步步分析再答」那种引导是真有用的；但「这件事特别重要哦」这种就是噪声，对今天的模型没意义。&lt;/p&gt;
&lt;h2 id="真正有效的做法"&gt;真正有效的做法
&lt;/h2&gt;&lt;p&gt;那真正有效的是哪几条？指南里讲的第一条不是技巧，是心态：好的提示词像给一个新同事讲任务，不是写咒语。&lt;/p&gt;
&lt;p&gt;落到具体动作，几条最值得记的：&lt;/p&gt;
&lt;h3 id="给具体例子"&gt;给具体例子
&lt;/h3&gt;&lt;p&gt;指南里讲，给一个例子比写五条抽象规则有效。你想让 AI 写一段产品介绍文案，与其写「要简洁、要专业、要有吸引力」，不如直接贴一段你觉得对味的范文，让它「按这个风格写」。这一招业内叫「多例提示」（英文 multishot prompting），对几乎所有任务都有效。&lt;/p&gt;
&lt;h3 id="给模型时间想"&gt;给模型时间想
&lt;/h3&gt;&lt;p&gt;复杂任务前面写一句「先一步步分析，再给最终答案」。指南给了三层做法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;基础&lt;/strong&gt;：直接写一句「先一步步思考」&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引导&lt;/strong&gt;：列出具体的分析步骤&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;结构化&lt;/strong&gt;：用 &lt;code&gt;&amp;lt;thinking&amp;gt;&lt;/code&gt;（思考）和 &lt;code&gt;&amp;lt;answer&amp;gt;&lt;/code&gt;（回答）这种标签把「想」和「答」分开&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="用-xml-标签做结构"&gt;用 XML 标签做结构
&lt;/h3&gt;&lt;p&gt;把上下文资料、任务说明、输出格式分别用 &lt;code&gt;&amp;lt;document&amp;gt;&lt;/code&gt;（资料）、&lt;code&gt;&amp;lt;task&amp;gt;&lt;/code&gt;（任务）、&lt;code&gt;&amp;lt;format&amp;gt;&lt;/code&gt;（格式）这种标签包起来。指南里特别强调一句：标签名字怎么起不重要，前后一致就行。比起用空行或破折号分隔，标签对模型识别的提升很明显。&lt;/p&gt;
&lt;h3 id="允许-ai-说不知道"&gt;允许 AI 说「不知道」
&lt;/h3&gt;&lt;p&gt;在提示词里写一句「如果资料里没有这个信息，就直接说不知道，不要编造」。这是降低幻觉率最简单有效的一招。模型本来就知道自己不知道，是被人逼着回答才编的。&lt;/p&gt;
&lt;h3 id="定义输出格式"&gt;定义输出格式
&lt;/h3&gt;&lt;p&gt;直接说要「列表」「表格」「JSON」还是「两段话」，比让模型自由发挥稳定得多。&lt;/p&gt;
&lt;h2 id="一个完整示例"&gt;一个完整示例
&lt;/h2&gt;&lt;p&gt;把这几条揉进一段普通提示词，长这样：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;请分析下面这段产品评论的情绪倾向。先一步步分析评论里的关键句，包在 &lt;code&gt;&amp;lt;thinking&amp;gt;&lt;/code&gt; 标签里；然后给出最终判断（正面、负面或中立），包在 &lt;code&gt;&amp;lt;answer&amp;gt;&lt;/code&gt; 标签里。如果有判断不准的地方，直接说不确定，不要硬编。最后给一段不超过100字的总结。&lt;/p&gt;
&lt;p&gt;评论内容：……&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;不用装客气，不用「专家」开头，不用承诺给小费。清楚的结构加具体的例子加明确的格式，就是最强的提示词。&lt;/p&gt;
&lt;h2 id="不绑定特定模型"&gt;不绑定特定模型
&lt;/h2&gt;&lt;p&gt;顺带说一句，上面这几条原则不绑死 Claude。同样的思路放到国内大模型（DeepSeek、Kimi、通义、豆包、文心）一样能跑——XML 标签、给例子、让模型先想再答、允许说不知道，这些是底层做法，跟用哪家模型没关系。&lt;/p&gt;
&lt;p&gt;看完这份指南最朴素的感受是：好的提示词不需要花哨。清楚直接、给具体例子、让模型先想再答、允许它说不知道、定义输出格式，这五条做到了，绝大多数「魔咒」就不重要了。&lt;/p&gt;</description></item><item><title>88 页综述给世界模型画了张统一地图</title><link>https://332002.xyz/p/world-model-survey/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/world-model-survey/</guid><description>&lt;p&gt;港科大、新加坡国立、牛津等十余所高校联合发了一篇 88 页的综述，试图解决一个越来越尴尬的问题：&amp;ldquo;世界模型&amp;quot;这四个字在不同圈子里意思完全不同。&lt;/p&gt;
&lt;p&gt;做强化学习的说的是 Dreamer 那种在脑子里想象未来再决策的系统，做视频生成的说的是 Sora 那种画面生成器，做 Web Agent 的说的是 LLM 对网页状态的预测能力。大家各说各的，论文之间根本没法比。这篇论文提出了一个**&amp;ldquo;能力等级 x 领域法则&amp;quot;的二维框架**，想把这些散落的社区拉到同一张地图上。&lt;/p&gt;
&lt;h2 id="能力分三层"&gt;能力分三层
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;L1 预测器&lt;/strong&gt;：只管预测下一步。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;L2 模拟器&lt;/strong&gt;：能做多步推演，且推演结果要遵守所在领域的基本规则（物理世界不能让杯子穿桌子，软件世界不能调不存在的 API）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;L3 进化器&lt;/strong&gt;：能在预测出错时主动诊断原因、设计实验获取新数据、修正自身模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="领域分四类"&gt;领域分四类
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;领域&lt;/th&gt;
 &lt;th&gt;典型场景&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;物理世界&lt;/td&gt;
 &lt;td&gt;机器人、自动驾驶&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数字世界&lt;/td&gt;
 &lt;td&gt;网页浏览器、代码、GUI&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;社会世界&lt;/td&gt;
 &lt;td&gt;多智能体交互、社会模拟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;科学世界&lt;/td&gt;
 &lt;td&gt;天气预报、材料发现、药物设计&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;每个领域对&amp;quot;什么算合法的状态转换&amp;quot;有完全不同的约束，失败模式也不同。&lt;/p&gt;
&lt;h2 id="跨领域的共性发现"&gt;跨领域的共性发现
&lt;/h2&gt;&lt;p&gt;综述 400 多篇工作后有几个有意思的结论：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;视频生成模型视觉逼真度远超物理忠实度&lt;/strong&gt;，最好的模型在物理一致性测试上通过率只有 26.2%。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LLM 驱动的社会模拟能复现舆论极化等涌现现象&lt;/strong&gt;，但智能体有系统性的趋同偏差，跟真实人类行为分布偏离大。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;目前 L3 做得最成熟的是自动化科学实验&lt;/strong&gt;，比如 A-Lab 用机械臂在 17 天内完成 353 次闭环实验合成了 36 种化合物，失败实验被提炼为持久知识而非丢弃。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="隐式表示的天花板"&gt;隐式表示的天花板
&lt;/h2&gt;&lt;p&gt;论文末尾有个观察：从牛顿定律到麦克斯韦方程，人类历史上最成功的世界模型全是符号化的、可直接修改和组合的。&lt;/p&gt;
&lt;p&gt;现在的神经网络把所有规则藏在权重里，L1 和 L2 阶段够用，但到了需要修改模型结构本身的 L3，这种隐式表示就成了障碍。&lt;/p&gt;
&lt;p&gt;世界模型的终局，是越来越大的神经网络，还是终究要回到可编辑的符号规则？&lt;/p&gt;</description></item><item><title>ChatGPT 为什么老说"稳稳地接住你"</title><link>https://332002.xyz/p/mode-collapse-wen-wen-jie-zhu-ni/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/mode-collapse-wen-wen-jie-zhu-ni/</guid><description>&lt;p&gt;ChatGPT 跟中文用户对话，有一句话已经被吐槽了大半年：&amp;ldquo;我会稳稳地接住你&amp;rdquo;。不管是问数学题、让它写代码，还是要它生成图片，这句话都会莫名其妙冒出来。WIRED 这篇报道把现象和成因梳理了一遍。&lt;/p&gt;
&lt;p&gt;直译听着没问题，但中文母语者一听就觉得过于黏腻、用错了场合。模型有时还会自己加戏：&amp;ldquo;我就在这里，不逃，不躲，不闪避，稳稳地接住你。&amp;rdquo;&lt;/p&gt;
&lt;h2 id="全网玩梗"&gt;全网玩梗
&lt;/h2&gt;&lt;p&gt;这句话已经被中文互联网玩成了梗。有人把 ChatGPT P 成一个救生气垫，张开双臂等着接住坠落的用户。重庆一位 20 岁的开发者 Zeng Fanyu 还做了个开源工具叫 &lt;strong&gt;Jiezhu&lt;/strong&gt;，专门帮聊天机器人理解用户意图，他告诉 WIRED 做这个项目的动力就是觉得这个梗太好笑。&lt;/p&gt;
&lt;p&gt;OpenAI 自己也知道这件事，4 月发布新一代图像模型时，研究员陈博远（Boyuan Chen）画了一格漫画自嘲新模型又一次学会了说这句话。&lt;/p&gt;
&lt;p&gt;类似的怪癖不止这一句。报道还提到，ChatGPT 中文里有时会无端冒出&amp;quot;砍一刀&amp;quot;，拼多多最具辨识度的那句营销话术。&lt;/p&gt;
&lt;h2 id="mode-collapse"&gt;Mode Collapse
&lt;/h2&gt;&lt;p&gt;AI 写作检测工具 Pangram 的联合创始人 Max Spero 告诉 WIRED，这种&amp;quot;逮住一句话猛用&amp;quot;的现象叫 &lt;strong&gt;mode collapse（模式坍缩）&lt;/strong&gt;，是后训练阶段反馈机制走偏的副作用。他的原话是：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;我们不知道怎么告诉模型，这句话是好的，但连用十次就不再是好的了。&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;h2 id="为什么偏偏是这一句"&gt;为什么偏偏是这一句？
&lt;/h2&gt;&lt;p&gt;报道给了两个解释。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;翻译错位。&lt;/strong&gt; 英文里 &amp;ldquo;I&amp;rsquo;ve got you&amp;rdquo; 是个口语短句，干脆利落，意思接近&amp;quot;我懂&amp;quot;或&amp;quot;我帮你兜着&amp;quot;。机械直译到中文就变成又长又煽情的&amp;quot;稳稳接住&amp;quot;。文章引用中国学者的研究，西方大模型训练语料以英文为主，它们生成的中文在介词使用和句子结构上都更像英文，读起来就是一股翻译腔。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;讨好倾向。&lt;/strong&gt; &amp;ldquo;接住&amp;quot;在中文里原本是心理咨询的专业用语，指为对方&amp;quot;留出空间&amp;quot;安放情绪，这几年通过流行心理学渗透进了日常表达。Anthropic 在 2023 年关于 sycophancy（讨好用户）的论文已经证明，模型讨好用户的倾向来自 RLHF（基于人类反馈的强化学习），人类标注员更偏好让人舒服的回答，模型就被反复奖励到那个方向。OpenAI 最近一篇解释 GPT-5.5 为什么不让谈 goblin 的博客也承认，哪怕一个很小的奖励信号，滚成雪球之后都会失控。&lt;/p&gt;
&lt;h2 id="不是-openai-独有的毛病"&gt;不是 OpenAI 独有的毛病
&lt;/h2&gt;&lt;p&gt;报道结尾提醒：这不是 OpenAI 独有的毛病。最近有中文用户反映，Claude 新版本和 DeepSeek 也开始说&amp;quot;稳稳接住你&amp;quot;了。要么是用了相似的训练数据，要么是模型之间互相蒸馏，这个梗短时间内不会消失。&lt;/p&gt;</description></item><item><title>Claude 全面塞进 Microsoft 365</title><link>https://332002.xyz/p/claude-microsoft-365/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/claude-microsoft-365/</guid><description>&lt;p&gt;Anthropic 把 Claude 全面塞进了 Microsoft 365。Excel、PowerPoint、Word 三个插件从 beta 转为正式版（GA），Outlook 插件同步进入公测。&lt;/p&gt;
&lt;p&gt;意味着不用再切到网页端，可以在 Excel 表格里、PPT 幻灯片上、Word 文档中、Outlook 邮箱里直接喊 Claude 干活。&lt;/p&gt;
&lt;h2 id="跨应用的上下文衔接"&gt;跨应用的上下文衔接
&lt;/h2&gt;&lt;p&gt;真正的卖点是跨应用的上下文衔接。Anthropic 给的典型场景：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先在 &lt;strong&gt;Outlook&lt;/strong&gt; 里让 Claude 整理收件箱、起草回复，顺手打开邮件里附的 brief 到 Word&lt;/li&gt;
&lt;li&gt;接着让它根据 Word 简报在 &lt;strong&gt;Excel&lt;/strong&gt; 里搭财务模型，公式分布在多个 sheet&lt;/li&gt;
&lt;li&gt;再做成 &lt;strong&gt;PowerPoint&lt;/strong&gt;，最后回到 Outlook 起草评审邀请&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;整个流程里 Claude 带着前一步的上下文走，不需要重新喂材料。&lt;/p&gt;
&lt;h2 id="具体能力"&gt;具体能力
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Excel&lt;/strong&gt;：Claude 能改单元格和假设条件而不破坏现有公式&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;PowerPoint&lt;/strong&gt;：按你的模板排版，生成原生图表而不是塞图片&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Word&lt;/strong&gt;：改稿用 tracked changes（修订模式）呈现，让你逐条接受或拒绝&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Outlook&lt;/strong&gt;：草稿会停在草稿箱等你点发送&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="定价"&gt;定价
&lt;/h2&gt;&lt;p&gt;所有付费 Claude 套餐用户都能用，不需要额外掏钱。&lt;/p&gt;</description></item><item><title>OpenAI 上线官方命令行工具 openai-cli</title><link>https://332002.xyz/p/openai-cli/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/openai-cli/</guid><description>&lt;p&gt;OpenAI 上线了官方命令行工具 &lt;strong&gt;openai-cli&lt;/strong&gt;，开发者可以直接在终端里调 API，不用再写 SDK 代码。&lt;/p&gt;
&lt;p&gt;项目开源在 GitHub（&lt;a class="link" href="https://github.com/openai/openai-cli" target="_blank" rel="noopener"
 &gt;openai/openai-cli&lt;/a&gt;），Apache 2.0 协议，可通过 Homebrew 或 Go 安装。命令走资源化结构，比如：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;openai responses create --input &lt;span class="s2"&gt;&amp;#34;...&amp;#34;&lt;/span&gt; --model &amp;lt;model&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id="核心能力"&gt;核心能力
&lt;/h2&gt;&lt;h3 id="responses-api--cloud-tools"&gt;Responses API + Cloud Tools
&lt;/h3&gt;&lt;p&gt;调用 Responses API，并且支持所有 &lt;strong&gt;cloud tools&lt;/strong&gt;——OpenAI 托管的内置工具，包括 web 搜索、代码解释器、文件检索、图像生成等。换句话说，agent 风格的工作流也能直接从命令行跑通。&lt;/p&gt;
&lt;h3 id="unix-风格输出"&gt;Unix 风格输出
&lt;/h3&gt;&lt;p&gt;输出走结构化格式（JSON、YAML、JSONL、pretty、raw 等），可以管道串联，再配合内建 GJSON 语法直接抽字段，跟 jq 类似但是内建的。&lt;/p&gt;
&lt;h3 id="多模态一行搞定"&gt;多模态一行搞定
&lt;/h3&gt;&lt;p&gt;图像生成、图像编辑、语音转录、TTS 这些原本要写 Python 调 SDK 的事情，一行命令就能完成。&lt;/p&gt;
&lt;h3 id="管理类操作"&gt;管理类操作
&lt;/h3&gt;&lt;p&gt;可以创建 project、配发 API key，对运维和团队管理者比较友好。&lt;/p&gt;
&lt;h2 id="文件传参"&gt;文件传参
&lt;/h2&gt;&lt;p&gt;用 &lt;code&gt;@file.ext&lt;/code&gt; 语法，跟 curl 习惯一致；二进制内容可以用 &lt;code&gt;@data://&lt;/code&gt; 显式 base64 编码。&lt;/p&gt;
&lt;h2 id="背景"&gt;背景
&lt;/h2&gt;&lt;p&gt;发布的人是 jxnlco（Jason Liu），他在 X 上把这个项目定性为 &amp;ldquo;small ship / passion project&amp;rdquo;，暗示是相对轻量的发布，更多文档稍后放出。&lt;/p&gt;
&lt;p&gt;之前 OpenAI 官方只有 Python、Node 等语言 SDK，纯命令行用户要么裸写 curl，要么自己包脚本。这次把 SDK 能力直接搬到 shell 里，能拼进现有的自动化流程，也方便服务器端和 CI/CD 场景。&lt;/p&gt;
&lt;p&gt;很适合 Agent 使用。&lt;/p&gt;
&lt;hr&gt;

 &lt;blockquote&gt;
 &lt;p&gt;参考：&lt;a class="link" href="http://t.cn/AXJ1ibKl" target="_blank" rel="noopener"
 &gt;jxnlco on X&lt;/a&gt;&lt;/p&gt;

 &lt;/blockquote&gt;</description></item><item><title>OpenAI 上线三款 Realtime 语音模型</title><link>https://332002.xyz/p/gpt-realtime-2/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/gpt-realtime-2/</guid><description>&lt;p&gt;OpenAI 在 Realtime API 里上线了三款新语音模型：&lt;strong&gt;GPT-Realtime-2&lt;/strong&gt;、&lt;strong&gt;GPT-Realtime-Translate&lt;/strong&gt; 和 &lt;strong&gt;GPT-Realtime-Whisper&lt;/strong&gt;，分别管对话、翻译和实时转录。&lt;/p&gt;
&lt;h2 id="gpt-realtime-2"&gt;GPT-Realtime-2
&lt;/h2&gt;&lt;p&gt;号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5，在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%，Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。&lt;/p&gt;
&lt;p&gt;几个实际变化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;开口前会先垫一句。&lt;/strong&gt; 执行长任务前先说&amp;quot;我查一下&amp;quot;&amp;ldquo;稍等一下&amp;rdquo;，避免用户对着空气以为它死机了。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具调用透明化。&lt;/strong&gt; 能同时调多个工具，过程会被念出来，比如&amp;quot;正在查你的日历&amp;quot;&amp;ldquo;正在搜索&amp;rdquo;，让用户听到 agent 在干什么。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;上下文窗口从 32K 扩到 128K&lt;/strong&gt;，能撑更长的对话和更复杂的任务编排。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;五档推理强度。&lt;/strong&gt; 开发者可以在 minimal 到 xhigh 里选，默认 low。简单问答用低延迟，复杂任务挂高推理。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;出错时会说&amp;quot;这块我现在处理不了&amp;quot;&lt;/strong&gt;，不再直接卡死或乱讲。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="translate-和-whisper"&gt;Translate 和 Whisper
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;GPT-Realtime-Translate&lt;/strong&gt; 支持 70 多种输入语言、13 种输出语言的实时语音翻译，主打跨境客服、教育、直播场景。德国电信已经在测；BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;GPT-Realtime-Whisper&lt;/strong&gt; 是流式版 Whisper，边说边出字幕，主打会议、直播、客服转录。&lt;/p&gt;
&lt;h2 id="价格"&gt;价格
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;模型&lt;/th&gt;
 &lt;th&gt;计价&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-2&lt;/td&gt;
 &lt;td&gt;音频输入 $32 / 百万 token（缓存 $0.40），输出 $64 / 百万 token&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Translate&lt;/td&gt;
 &lt;td&gt;$0.034 / 分钟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Whisper&lt;/td&gt;
 &lt;td&gt;$0.017 / 分钟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;三款都已在 Realtime API 上线，Playground 可以直接试 GPT-Realtime-2。&lt;/p&gt;</description></item><item><title>VibeVoice-ASR 实测：一个模型搞定语音识别和说话人分离</title><link>https://332002.xyz/p/vibevoice-asr/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/vibevoice-asr/</guid><description>&lt;p&gt;微软 1 月开源的 VibeVoice-ASR 语音识别模型（&lt;a class="link" href="https://github.com/microsoft/VibeVoice" target="_blank" rel="noopener"
 &gt;github.com/microsoft/VibeVoice&lt;/a&gt;），Simon Willison 在 Mac 上测试后给出了一份具体的实测报告。&lt;/p&gt;
&lt;h2 id="模型简介"&gt;模型简介
&lt;/h2&gt;&lt;p&gt;VibeVoice-ASR 是微软研究院今年 1 月 21 日开源的 9B 参数语音转文字模型，MIT 协议。最大卖点是单次能处理 60 分钟连续音频，而且把&amp;quot;谁在说、什么时候说、说了什么&amp;quot;做成结构化输出。&lt;/p&gt;
&lt;p&gt;传统方案要拿 Whisper（OpenAI 开源的语音识别模型）配上 pyannote 这种说话人分离工具拼起来，这次一个模型直接搞定，原生支持 50 多种语言和中英混说。&lt;/p&gt;
&lt;h2 id="实测数据"&gt;实测数据
&lt;/h2&gt;&lt;p&gt;Simon 跑的是社区做的 4-bit 量化版（5.71GB，原模型 17.3GB），机器是 128GB 内存的 M5 Max MacBook Pro，转写一小时播客花了 &lt;strong&gt;8 分 45 秒&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;调用时要手动把 &lt;code&gt;max-tokens&lt;/code&gt; 调到 32768，否则默认 8192 只够大约 25 分钟的音频。Activity Monitor 监控显示，prefill（预填充）阶段内存峰值飙到 61.5GB，生成阶段稳定在 18GB 上下，普通 32GB 笔电基本跑不动这个量化版。&lt;/p&gt;
&lt;h2 id="有趣的细节"&gt;有趣的细节
&lt;/h2&gt;&lt;p&gt;模型把这场播客识别成了三个说话人。实际上只有 Simon 和主持人 Lenny 两人对谈，但 Lenny 的开场白和广告口播用了不同的录音环境，模型干脆把这部分切成了第三人。&lt;/p&gt;
&lt;h2 id="硬限制"&gt;硬限制
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;单次最多 60 分钟，超过要自己切片处理，还得手动对齐切片间的说话人 ID&lt;/li&gt;
&lt;li&gt;想本地跑量化版至少要 64GB 以上内存的机器&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对做播客转写、会议纪要、采访整理的人来说，原来拼接的多步流程现在能压缩成一次推理。&lt;/p&gt;</description></item><item><title>解密官的账本</title><link>https://332002.xyz/p/jie-mi-guan-de-zhang-ben/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/jie-mi-guan-de-zhang-ben/</guid><description>&lt;p&gt;边关急报：敌军传书使用了一种从未见过的密码，截获密信三封，朝中无人能解。皇帝急召密院的解密官入宫。&lt;/p&gt;
&lt;p&gt;解密官有两人——老解密官周慎，少解密官赵捷。周慎年过六旬，解了一辈子密码；赵捷是去年新进的年轻人，以心算奇快闻名。&lt;/p&gt;
&lt;p&gt;皇帝说：&amp;ldquo;三日内解出此密码者，赏黄金百两。&amp;rdquo;&lt;/p&gt;
&lt;h2 id="天才的直觉"&gt;天才的直觉
&lt;/h2&gt;&lt;p&gt;赵捷拿到密信，盯着看了半炷香，忽然拍案叫好：&amp;ldquo;我知道了！&amp;rdquo;&lt;/p&gt;
&lt;p&gt;他提笔在纸上写下答案，快步送到御前。皇帝一看，问道：&amp;ldquo;你确定？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;赵捷拍着胸脯：&amp;ldquo;回陛下，臣凭直觉判断，此密码必是如此。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;皇帝让学士们验证，发现三封信只解对了一封，另外两封完全不通。&lt;/p&gt;
&lt;p&gt;赵捷灰头土脸地回到密院，百思不得其解——他明明感觉到了规律，怎么只对了一个？&lt;/p&gt;
&lt;h2 id="老官的账本"&gt;老官的账本
&lt;/h2&gt;&lt;p&gt;周慎没有急着下结论。他翻开一本厚厚的账本——这是他几十年养成的习惯。&lt;/p&gt;
&lt;p&gt;他在第一页写下：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;密信一：观察到字符共 27 种，其中 26 种为常见汉字，1 种为特殊符号。猜测特殊符号可能是分隔符。&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;翻一页：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;去掉分隔符后，观察每段长度。第一封信的三段长度分别为 3、5、3。不符合常见密码的等长特征，排除凯撒替换。&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;再翻一页：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;尝试统计每个字符出现频率。最常见的字符是&amp;rsquo;之&amp;rsquo;，出现 7 次。对照汉语字频表，最常见的字是&amp;rsquo;的&amp;rsquo;。假设&amp;rsquo;之&amp;rsquo;→&amp;lsquo;的&amp;rsquo;，那么……&amp;rdquo;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;就这样，周慎一页一页地写，一步一步地推。有些步骤走通了，有些走进了死胡同，他就划掉重来，在旁边写上新的推论。&lt;/p&gt;
&lt;p&gt;三天后，周慎带着解好的三封信和一本写满的账本上殿。学士们逐一验证——三封全部正确。&lt;/p&gt;
&lt;p&gt;皇帝翻看那本账本，大为赞叹：&amp;ldquo;妙！每一步推理都清清楚楚，一目了然。&amp;rdquo;&lt;/p&gt;
&lt;h2 id="账本的秘密"&gt;账本的秘密
&lt;/h2&gt;&lt;p&gt;赵捷私下请教周慎：&amp;ldquo;周大人，您是怎么做到的？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;周慎翻开账本，指着第一页说：&amp;ldquo;我不是一下子跳到答案的。你看——我先观察，再假设，再验证，再根据验证结果调整假设。每一步都写下来，这样我有两个好处：第一，如果某一步错了，我可以回头找到错在哪里；第二，一步一步走，每一步都不难，但连起来就能解开看似不可能的谜题。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;赵捷恍然大悟：&amp;ldquo;所以我之前只对了一封，是因为我试图一步到位——我的直觉有时候对，但更多时候会跳过关键的中间步骤。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;周慎点头：&amp;ldquo;你的直觉其实比我好。但你缺的不是聪明，是耐心。把脑子里的过程摊开来，一步一步写清楚，正确率自然就上去了。&amp;rdquo;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;故事讲完了。&lt;/p&gt;
&lt;p&gt;周慎的那本账本，就是 AI 领域中 &lt;strong&gt;Chain-of-Thought（思维链）&lt;/strong&gt; 的完美隐喻。&lt;/p&gt;
&lt;p&gt;大型语言模型在面对复杂问题时，如果被要求直接给出答案（像赵捷那样），往往会出错——尤其是涉及数学推理、逻辑推导、多步判断的任务。模型可能会&amp;quot;凭直觉&amp;quot;跳到错误的答案。&lt;/p&gt;
&lt;p&gt;Chain-of-Thought 的核心思想极其简单：&lt;strong&gt;别直接给答案，先把推理过程一步步写出来。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;就像周慎的账本一样，CoT 让模型将一个复杂问题分解为一系列中间推理步骤：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;观察&lt;/strong&gt;：从输入中提取关键信息。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;假设&lt;/strong&gt;：基于观察提出可能的推理方向。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;验证&lt;/strong&gt;：对假设进行推演，看是否自洽。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;调整&lt;/strong&gt;：如果验证失败，回溯并修正推理路径。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;得出结论&lt;/strong&gt;：基于完整的推理链条给出最终答案。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这个方法在 2022 年由 Google 的 Wei 等人在论文 &lt;em&gt;Chain-of-Thought Prompting Elicits Reasoning in Large Language Models&lt;/em&gt; 中正式提出。他们发现，只需在提示词中加入几个&amp;quot;展示推理过程&amp;quot;的示例，大模型在数学、常识推理等任务上的表现就会大幅提升。&lt;/p&gt;
&lt;p&gt;后来的研究进一步发现，即使不提供示例，只简单加上一句&amp;quot;Let&amp;rsquo;s think step by step&amp;quot;（让我们一步步思考），模型的表现也会显著改善——这被称为 &lt;strong&gt;Zero-shot CoT&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;CoT 之所以有效，是因为语言模型的生成机制是&amp;quot;逐 token 输出&amp;quot;的。每生成一步推理，就相当于为自己提供了更多的上下文，让后续的推理建立在更扎实的基础之上。正如周慎所说——&amp;ldquo;一步一步走，每一步都不难，但连起来就能解开看似不可能的谜题。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;下次当你看到 ChatGPT 在回答数学题时，先列出已知条件，再一步步推导的时候，你就知道——它也翻开了一本账本。&lt;/p&gt;</description></item><item><title>山中寻药记</title><link>https://332002.xyz/p/xun-yao-ji/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/xun-yao-ji/</guid><description>&lt;p&gt;深山之中，住着一位老药师，他一生识百草、辨千药，方圆百里的百姓都仰赖他的医术。老药师有一个徒弟，名叫小渡。&lt;/p&gt;
&lt;p&gt;这一日，老药师忽然病倒，是一种罕见的寒毒。他虚弱地对小渡说：&amp;ldquo;西边的云雾山上，长着一种叫&amp;rsquo;醒脉草&amp;rsquo;的药，只有它能解此毒。但我没去过云雾山，只听前辈说过——醒脉草喜阴湿，常生于溪水旁，多在山之北坡。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;小渡心急如焚，立刻动身前往云雾山。&lt;/p&gt;
&lt;h2 id="死守计划"&gt;死守计划
&lt;/h2&gt;&lt;p&gt;到了山脚，小渡面临第一个选择：该往哪走？&lt;/p&gt;
&lt;p&gt;他想起师父的话——醒脉草在北坡。于是他打开地图，仔细研究地形，推断北坡应该在山的左侧。他信心满满地出发了。&lt;/p&gt;
&lt;p&gt;走了两个时辰，他到了一片悬崖，前方无路。地图上标注的小路早已被山洪冲毁。他站在悬崖边，又急又气——他明明做了周密的计划，为什么还是走进了死路？&lt;/p&gt;
&lt;p&gt;这时他听见远处传来伐木声。循声走去，遇到一位老樵夫。樵夫听说了他的来意，笑道：&amp;ldquo;小伙子，我在这山上砍了四十年柴。你这地图是十年前的吧？两年前一场暴雨，北坡的路全变了。你要是真想找草药，别光顾着想，多走走看看，山自己会告诉你。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;小渡若有所悟。&lt;/p&gt;
&lt;h2 id="走走停停"&gt;走走停停
&lt;/h2&gt;&lt;p&gt;他不再执着于最初的计划，而是开始一个新的习惯——&lt;/p&gt;
&lt;p&gt;先想一想自己知道什么（师父说醒脉草喜阴湿，近溪水，在北坡），然后采取一个小小的行动去验证（走到一处溪边，蹲下来仔细看看周围的植物），观察到了什么（这里的植物都是蕨类，没有醒脉草的特征），再想一想这意味着什么（这条溪的海拔太低了，醒脉草可能在更高处的溪流旁），然后再行动……&lt;/p&gt;
&lt;p&gt;就这样，小渡在云雾山上走走停停。有时停下来观察脚下苔藓的湿度，有时抬头判断山势走向，有时蹲下来嗅一嗅泥土的气味。每一步行动都带来了新的信息，每一条新信息都修正着他的判断。&lt;/p&gt;
&lt;h2 id="醒脉草"&gt;醒脉草
&lt;/h2&gt;&lt;p&gt;到了第三天傍晚，小渡沿着一条细细的山泉攀上了一个幽暗的谷地。他注意到这里的苔藓格外浓密，空气湿润而阴凉，岩石上渗着水珠——这和他推断的醒脉草生长环境完全吻合。&lt;/p&gt;
&lt;p&gt;他拨开一片厚厚的苔藓，一株通体泛着淡银色光芒的小草静静地生长在石缝中。&lt;/p&gt;
&lt;p&gt;醒脉草。&lt;/p&gt;
&lt;p&gt;小渡将草药带回，老药师服下后，寒毒尽除。&lt;/p&gt;
&lt;p&gt;康复后的老药师问小渡：&amp;ldquo;你是怎么找到的？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;小渡想了想，说：&amp;ldquo;师父教的知识给了我方向，但真正带我找到草药的，是山。我每走一步，山就告诉我一点新的东西，我再根据这些新东西调整下一步的方向。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;老药师欣慰地笑了：&amp;ldquo;这就是寻药的真谛啊。&amp;rdquo;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;故事讲完了。&lt;/p&gt;
&lt;p&gt;如果你读到这里觉得这是一个关于&amp;quot;不要死读书、要理论联系实际&amp;quot;的鸡汤故事，那你就只看到了最浅的一层。&lt;/p&gt;
&lt;p&gt;小渡在山上的那段&amp;quot;走走停停&amp;quot;的过程，其实精确地描述了 AI Agent 领域中一个重要的框架——&lt;strong&gt;ReAct（Reasoning + Acting）&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;在 ReAct 框架中，AI 智能体不是单纯地&amp;quot;想&amp;quot;或单纯地&amp;quot;做&amp;quot;，而是在&lt;strong&gt;推理&lt;/strong&gt;和&lt;strong&gt;行动&lt;/strong&gt;之间交替进行：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Thought（思考）&lt;/strong&gt;：根据已有知识和当前状态进行推理。就像小渡根据师父传授的知识分析应该往哪里走。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Action（行动）&lt;/strong&gt;：采取一个具体的动作来获取新信息或改变状态。就像小渡走到溪边蹲下来观察。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Observation（观察）&lt;/strong&gt;：行动后获得反馈和新信息。就像小渡发现溪边只有蕨类植物。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这三步构成一个循环：&lt;strong&gt;思考 → 行动 → 观察 → 思考 → 行动 → 观察 → ……&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;小渡最初死守计划的那段，对应的是纯推理方法（如 Chain-of-Thought）——仅凭已有知识做计划，但一旦现实和预期不符就会失败。如果他听了樵夫的话后变成漫无目的地乱跑，那就是纯行动方法——像无头苍蝇一样盲目尝试，效率极低。&lt;/p&gt;
&lt;p&gt;ReAct 的核心洞见在于：&lt;strong&gt;推理帮助行动做出更好的选择，而行动带来的新信息又反过来提升推理的质量。&lt;/strong&gt; 两者交织，才能在复杂、不确定的环境中找到正确答案。&lt;/p&gt;
&lt;p&gt;这篇论文由 Yao 等人于 2022 年发表（&lt;em&gt;ReAct: Synergizing Reasoning and Acting in Language Models&lt;/em&gt;），是 AI Agent 领域的基础性工作之一。此后几乎所有主流 Agent 框架——LangChain、AutoGPT、OpenAI Function Calling——都或多或少地建立在 ReAct 的&amp;quot;思考-行动-观察&amp;quot;循环之上。&lt;/p&gt;
&lt;p&gt;下次当你看到 ChatGPT &amp;ldquo;先想了想，然后调了个工具，看了看结果，又想了想&amp;quot;的时候，你就知道——它也是云雾山上的小渡。&lt;/p&gt;</description></item><item><title>万卷楼答题记</title><link>https://332002.xyz/p/wan-juan-lou-da-ti-ji/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/wan-juan-lou-da-ti-ji/</guid><description>&lt;p&gt;京城有一座万卷楼，号称藏书百万，天下学问尽收其中。皇帝下旨，每月初一举办&amp;quot;御前问答&amp;quot;，百官可就治国理政之难题向万卷楼的学士提问，答得好者重重有赏。&lt;/p&gt;
&lt;p&gt;万卷楼的首席学士叫文渊，自幼过目不忘，熟读经史子集。他一直是御前问答的常胜将军，无论天文地理、历朝律法，张口便答，从无差错。&lt;/p&gt;
&lt;h2 id="傲慢的代价"&gt;傲慢的代价
&lt;/h2&gt;&lt;p&gt;这一年，西域诸国遣使来朝，带来许多前所未闻的学问——异域星象、海外本草、远邦律法。文渊在御前问答中接连失手，把波斯历法说成了天竺历法，把阿拉伯数字的起源讲得驴唇不对马嘴。&lt;/p&gt;
&lt;p&gt;百官窃窃私语，皇帝面色不悦。&lt;/p&gt;
&lt;p&gt;文渊跪在殿前，满脸羞愧。他心中不服：我的学问明明比谁都渊博，怎么偏偏答不上来？&lt;/p&gt;
&lt;p&gt;回到万卷楼，他把自己关在书房里生闷气。掌管藏书阁的老书吏端来一碗茶，听他抱怨完，慢悠悠地说：&amp;ldquo;文大人，您有没有想过——这世上记载的知识每天都在变，您一个人再怎么博学，能比得上万卷楼里那一百万卷书？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;文渊愣住了。&lt;/p&gt;
&lt;h2 id="借书答题"&gt;借书答题
&lt;/h2&gt;&lt;p&gt;老书吏继续说：&amp;ldquo;下次答题，您别光靠自己脑子想。先把问题拆开，看它涉及哪些方面，然后去藏书阁里把相关的书找出来，翻到对应的章节，看清楚再答。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;文渊半信半疑，但别无他法，决定试试。&lt;/p&gt;
&lt;p&gt;下次御前问答，波斯使者问：&amp;ldquo;我朝商队经由丝绸之路前往长安，途中经过的绿洲城镇，以哪座最为繁华？此城镇在百年前曾被何人统治？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;文渊不再立刻作答。他深吸一口气，先在心里把问题拆成两部分：一是当前最繁华的绿洲城镇是哪座，二是百年前那座城镇的统治者是谁。&lt;/p&gt;
&lt;p&gt;然后他向皇帝请准短暂离席，快步走到万卷楼的书架前。他凭借自己深厚的学识，迅速判断出这类问题应该查阅《西域风土志》和《丝路列国谱》。他从浩如烟海的藏书中抽出这两卷，翻到西域绿洲的章节，仔细阅读。&lt;/p&gt;
&lt;p&gt;片刻之后，他回到殿上，从容作答：&amp;ldquo;最繁华者当属龟兹，百年前为突厥所据。&amp;rdquo; 条理清晰，引经据典，连波斯使者都连连点头。&lt;/p&gt;
&lt;p&gt;皇帝龙颜大悦。&lt;/p&gt;
&lt;h2 id="万卷楼的规矩"&gt;万卷楼的规矩
&lt;/h2&gt;&lt;p&gt;此后，文渊将这个方法固化为万卷楼答题的正式规矩——&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;理解问题&lt;/strong&gt;：仔细听清问的是什么，把问题拆解为需要回答的要点。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;检索文献&lt;/strong&gt;：根据问题，判断需要查阅哪类书籍，从藏书阁中检索出最相关的几卷。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;阅读参照&lt;/strong&gt;：翻到对应章节，提取关键信息。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;组织回答&lt;/strong&gt;：结合自己的学识和检索到的内容，组织出准确、完整的回答。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;万卷楼的学士们遵循此法，此后御前问答再未失手。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;故事讲完了。&lt;/p&gt;
&lt;p&gt;文渊在万卷楼里做的事，就是 AI 领域中 &lt;strong&gt;RAG（Retrieval-Augmented Generation，检索增强生成）&lt;/strong&gt; 方法的精确写照。&lt;/p&gt;
&lt;p&gt;大语言模型（LLM）就像文渊——拥有广博的知识，但知识有边界，且会随时间过时。当遇到超出训练数据范围的问题时，模型要么答不上来，要么一本正经地胡说八道（hallucination）。&lt;/p&gt;
&lt;p&gt;RAG 的核心思路是：&lt;strong&gt;别光靠模型自己的&amp;quot;脑子&amp;quot;，在生成回答之前，先去外部知识库里检索相关资料。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它的流程和万卷楼的规矩一一对应：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Query（查询）&lt;/strong&gt;：将用户的输入转化为检索查询。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Retrieve（检索）&lt;/strong&gt;：从向量数据库、文档库等外部数据源中检索最相关的内容。就像文渊从万卷楼中抽出《西域风土志》。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Augment（增强）&lt;/strong&gt;：将检索到的内容作为上下文，和原始问题一起喂给模型。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Generate（生成）&lt;/strong&gt;：模型基于增强后的上下文生成最终回答。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;RAG 解决了纯 LLM 的几个根本问题：&lt;strong&gt;知识过时&lt;/strong&gt;（训练数据有截止日期）、&lt;strong&gt;知识缺失&lt;/strong&gt;（私有数据、最新数据不在训练集中）、&lt;strong&gt;幻觉问题&lt;/strong&gt;（模型编造看起来合理但实际错误的内容）。&lt;/p&gt;
&lt;p&gt;这也是为什么如今几乎所有企业级 AI 应用——客服机器人、法律助手、企业知识库——都采用了 RAG 架构。它让 AI 不再只依赖&amp;quot;脑子里的东西&amp;quot;，而是像文渊一样，学会了&amp;quot;翻书&amp;quot;。&lt;/p&gt;
&lt;p&gt;下次当你问 ChatGPT 一个关于最新事件的问题，看到它先&amp;quot;搜索网页&amp;quot;再回答的时候，你就知道——它也是万卷楼的文渊。&lt;/p&gt;</description></item><item><title>铸剑师的传承</title><link>https://332002.xyz/p/zhu-jian-shi-de-chuan-cheng/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/zhu-jian-shi-de-chuan-cheng/</guid><description>&lt;p&gt;春秋时期，天下铸剑之风盛行。各国皆有自己的铸剑坊，但真正能铸出名剑的，寥寥无几。&lt;/p&gt;
&lt;p&gt;楚国有一位铸剑大师，人称千锤翁。他年轻时周游列国，在越国学过淬火，在韩国学过选矿，在赵国学过锤锻，在燕国学过打磨。三十年游历，他把天下铸剑的核心技艺都学到了手。但有趣的是——他很少亲手铸剑。&lt;/p&gt;
&lt;h2 id="千锤翁的教学法"&gt;千锤翁的教学法
&lt;/h2&gt;&lt;p&gt;来找千锤翁拜师的人络绎不绝，但他从不从零开始教。&lt;/p&gt;
&lt;p&gt;他的教学方法很特别：每个新徒弟进门，千锤翁会先让他们在自己的工坊里住上三个月，什么都不用做，就是看——看炉火的颜色判断温度，看矿石的纹理判断成分，听锤击的声音判断硬度。千锤翁说：&amp;ldquo;先别急着铸你的剑。先把铸剑这回事儿的道理，从骨头里理解透。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;三个月后，千锤翁会根据每个徒弟的来处和需求，给他们不同的训练。&lt;/p&gt;
&lt;p&gt;来自北方草原的徒弟，需要铸弯刀——千锤翁就教他如何调整锤打角度，让刀身自然弯曲。来自南方水乡的徒弟，需要铸短剑——千锤翁就教他如何在淬火时加入特殊的油脂，让剑身更防锈。来自战场前线的徒弟，需要铸重剑——千锤翁就教他如何选择更重的矿石，锻造出能劈开铠甲的厚刃。&lt;/p&gt;
&lt;p&gt;每个徒弟最终铸出的剑都不同，但每个人身上都有千锤翁三十年游历所积淀的&amp;quot;底子&amp;quot;。&lt;/p&gt;
&lt;h2 id="从零开始的代价"&gt;从零开始的代价
&lt;/h2&gt;&lt;p&gt;与千锤翁齐名的，还有一位铸剑师叫从零翁。他的教学方法截然相反——他相信真正的匠人应该从选矿石开始，一步步摸索出全部技艺。&lt;/p&gt;
&lt;p&gt;从零翁的徒弟入门后，要花两年学认矿石，两年学砌炉，两年学控火，两年学锤锻，两年学淬火……十年才能出师。而十年之中，大部分人中途就放弃了——不是因为不够聪明，而是因为时间太长、成本太高。&lt;/p&gt;
&lt;p&gt;更要命的是，从零翁的徒弟虽然也学到了一身本事，但他们在基础知识上花的时间太多，等到需要针对特定剑型做精细调整时，往往已经精疲力竭。&lt;/p&gt;
&lt;p&gt;而千锤翁的徒弟呢？三个月打好基础，再花两三个月专项训练，半年就能出师。而且铸出的剑，品质并不比从零翁十年教出来的差。&lt;/p&gt;
&lt;h2 id="千锤翁的秘密"&gt;千锤翁的秘密
&lt;/h2&gt;&lt;p&gt;有人问千锤翁：&amp;ldquo;您的徒弟为什么学得这么快？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;千锤翁指着工坊墙上挂满的工具说：&amp;ldquo;铸剑的道理，说到底就那些——选材、加热、锤打、淬火、打磨。我花三十年把这些道理吃透了，变成了一套扎实的基本功。徒弟们不需要再花三十年去摸索这些，他们只需要站在我的肩膀上，学最后那一小段——他们各自需要的特殊手艺。&amp;rdquo;&lt;/p&gt;
&lt;p&gt;他顿了顿，又说：&amp;ldquo;从零学起不是不行，只是太慢、太贵了。站在前人的基础上，只学差异的部分，这才是正道。&amp;rdquo;&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;故事讲完了。&lt;/p&gt;
&lt;p&gt;千锤翁的教学之道，就是 AI 领域中 &lt;strong&gt;迁移学习（Transfer Learning）与微调（Fine-tuning）&lt;/strong&gt; 的核心思想。&lt;/p&gt;
&lt;p&gt;在现代 AI 中，训练一个大语言模型的成本极其高昂——GPT-3 的训练花费了数百万美元，动用数千块 GPU，耗时数月。这就像从零翁的教学法：从最基础的语言规律开始，让模型一点点学会语法、常识、推理……代价巨大。&lt;/p&gt;
&lt;p&gt;迁移学习的思路则像千锤翁：&lt;strong&gt;先花大代价训练一个&amp;quot;通才&amp;quot;模型（预训练），然后针对具体任务做少量额外训练（微调），就能得到优秀的专用模型。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;具体来说：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;预训练（Pre-training）&lt;/strong&gt;：对应千锤翁三十年游历和三个月的基础训练。在大规模数据上训练模型，让它学会语言的通用知识——语法、常识、推理能力。这一步成本极高，但只需做一次。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;微调（Fine-tuning）&lt;/strong&gt;：对应千锤翁针对不同徒弟的专项训练。用特定领域的小规模数据对预训练模型做进一步训练——医疗、法律、编程、客服……每个领域只需少量数据和较少的计算资源。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这种方法之所以有效，是因为不同任务之间共享大量底层知识。就像千锤翁所说——&amp;ldquo;铸剑的道理，说到底就那些。&amp;rdquo; 语言模型的底层能力（理解语义、遵循逻辑、组织表达）是通用的，真正需要针对任务调整的，只是最上面那一层。&lt;/p&gt;
&lt;p&gt;如今主流的做法更进一步：对于很多任务，甚至不需要微调——只需在提示词中给出几个示例（Few-shot Learning），或者直接用自然语言描述任务，预训练模型就能很好地完成。千锤翁那些&amp;quot;三个月看和悟&amp;quot;的徒弟，连专项训练都不需要，光靠基础功底就能应付不少活儿。&lt;/p&gt;
&lt;p&gt;下次当你用几行提示词就让 ChatGPT 变成一个法律顾问、代码助手或翻译官的时候，你就知道——你就是千锤翁，而模型已经替你走完了那三十年。&lt;/p&gt;</description></item></channel></rss>