88 页综述给世界模型画了张统一地图

港科大、NUS、牛津等十余所高校联合提出能力等级 x 领域法则的二维框架,把散落的研究社区拉到同一张地图上

港科大、新加坡国立、牛津等十余所高校联合发了一篇 88 页的综述,试图解决一个越来越尴尬的问题:“世界模型"这四个字在不同圈子里意思完全不同。

做强化学习的说的是 Dreamer 那种在脑子里想象未来再决策的系统,做视频生成的说的是 Sora 那种画面生成器,做 Web Agent 的说的是 LLM 对网页状态的预测能力。大家各说各的,论文之间根本没法比。这篇论文提出了一个**“能力等级 x 领域法则"的二维框架**,想把这些散落的社区拉到同一张地图上。

能力分三层

  • L1 预测器:只管预测下一步。
  • L2 模拟器:能做多步推演,且推演结果要遵守所在领域的基本规则(物理世界不能让杯子穿桌子,软件世界不能调不存在的 API)。
  • L3 进化器:能在预测出错时主动诊断原因、设计实验获取新数据、修正自身模型。

领域分四类

领域典型场景
物理世界机器人、自动驾驶
数字世界网页浏览器、代码、GUI
社会世界多智能体交互、社会模拟
科学世界天气预报、材料发现、药物设计

每个领域对"什么算合法的状态转换"有完全不同的约束,失败模式也不同。

跨领域的共性发现

综述 400 多篇工作后有几个有意思的结论:

  • 视频生成模型视觉逼真度远超物理忠实度,最好的模型在物理一致性测试上通过率只有 26.2%。
  • LLM 驱动的社会模拟能复现舆论极化等涌现现象,但智能体有系统性的趋同偏差,跟真实人类行为分布偏离大。
  • 目前 L3 做得最成熟的是自动化科学实验,比如 A-Lab 用机械臂在 17 天内完成 353 次闭环实验合成了 36 种化合物,失败实验被提炼为持久知识而非丢弃。

隐式表示的天花板

论文末尾有个观察:从牛顿定律到麦克斯韦方程,人类历史上最成功的世界模型全是符号化的、可直接修改和组合的。

现在的神经网络把所有规则藏在权重里,L1 和 L2 阶段够用,但到了需要修改模型结构本身的 L3,这种隐式表示就成了障碍。

世界模型的终局,是越来越大的神经网络,还是终究要回到可编辑的符号规则?