<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>世界模型 on 周先森的小站</title><link>https://332002.xyz/tags/%E4%B8%96%E7%95%8C%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 世界模型 on 周先森的小站</description><generator>Hugo -- gohugo.io</generator><language>zh</language><lastBuildDate>Fri, 08 May 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://332002.xyz/tags/%E4%B8%96%E7%95%8C%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>88 页综述给世界模型画了张统一地图</title><link>https://332002.xyz/p/world-model-survey/</link><pubDate>Fri, 08 May 2026 00:00:00 +0800</pubDate><guid>https://332002.xyz/p/world-model-survey/</guid><description>&lt;p&gt;港科大、新加坡国立、牛津等十余所高校联合发了一篇 88 页的综述，试图解决一个越来越尴尬的问题：&amp;ldquo;世界模型&amp;quot;这四个字在不同圈子里意思完全不同。&lt;/p&gt;
&lt;p&gt;做强化学习的说的是 Dreamer 那种在脑子里想象未来再决策的系统，做视频生成的说的是 Sora 那种画面生成器，做 Web Agent 的说的是 LLM 对网页状态的预测能力。大家各说各的，论文之间根本没法比。这篇论文提出了一个**&amp;ldquo;能力等级 x 领域法则&amp;quot;的二维框架**，想把这些散落的社区拉到同一张地图上。&lt;/p&gt;
&lt;h2 id="能力分三层"&gt;能力分三层
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;L1 预测器&lt;/strong&gt;：只管预测下一步。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;L2 模拟器&lt;/strong&gt;：能做多步推演，且推演结果要遵守所在领域的基本规则（物理世界不能让杯子穿桌子，软件世界不能调不存在的 API）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;L3 进化器&lt;/strong&gt;：能在预测出错时主动诊断原因、设计实验获取新数据、修正自身模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="领域分四类"&gt;领域分四类
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;领域&lt;/th&gt;
 &lt;th&gt;典型场景&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;物理世界&lt;/td&gt;
 &lt;td&gt;机器人、自动驾驶&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;数字世界&lt;/td&gt;
 &lt;td&gt;网页浏览器、代码、GUI&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;社会世界&lt;/td&gt;
 &lt;td&gt;多智能体交互、社会模拟&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;科学世界&lt;/td&gt;
 &lt;td&gt;天气预报、材料发现、药物设计&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;每个领域对&amp;quot;什么算合法的状态转换&amp;quot;有完全不同的约束，失败模式也不同。&lt;/p&gt;
&lt;h2 id="跨领域的共性发现"&gt;跨领域的共性发现
&lt;/h2&gt;&lt;p&gt;综述 400 多篇工作后有几个有意思的结论：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;视频生成模型视觉逼真度远超物理忠实度&lt;/strong&gt;，最好的模型在物理一致性测试上通过率只有 26.2%。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;LLM 驱动的社会模拟能复现舆论极化等涌现现象&lt;/strong&gt;，但智能体有系统性的趋同偏差，跟真实人类行为分布偏离大。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;目前 L3 做得最成熟的是自动化科学实验&lt;/strong&gt;，比如 A-Lab 用机械臂在 17 天内完成 353 次闭环实验合成了 36 种化合物，失败实验被提炼为持久知识而非丢弃。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="隐式表示的天花板"&gt;隐式表示的天花板
&lt;/h2&gt;&lt;p&gt;论文末尾有个观察：从牛顿定律到麦克斯韦方程，人类历史上最成功的世界模型全是符号化的、可直接修改和组合的。&lt;/p&gt;
&lt;p&gt;现在的神经网络把所有规则藏在权重里，L1 和 L2 阶段够用，但到了需要修改模型结构本身的 L3，这种隐式表示就成了障碍。&lt;/p&gt;
&lt;p&gt;世界模型的终局，是越来越大的神经网络，还是终究要回到可编辑的符号规则？&lt;/p&gt;</description></item></channel></rss>