登录
注册
据 Woofun AI 消息,2025 年 AI 领域最热门却最为混乱的概念莫过于 World(原 Worldcoin)模型,李菲菲在个人 Substack 平台发文指出,这一术语实为部分可观测马尔可夫决策过程(POMDP)闭环的三种不同投影,即智能体、动作、状态、观测值与智能体构成的循环中,不同组件输出的不同形式。
术语滥用的根源深植于历史与哲学的模糊性之中。早在 1921 年,路德维希·维特根斯坦在《逻辑哲学论》中便提出'世界即一切发生之事的总和',然而古希腊人关于世界由火、水或原子构成的争论从未停歇,AI 领域亦面临同样的困境。1943 年,肯尼思·克雷克首次提出大脑通过运行现实的'小型模型'进行推理,这一概念在 20 世纪 80 年代末和 90 年代初被引入神经网络领域。如今,Sora 被 OpenAI 称为世界模拟器,Genie 允许用户在生成图像中行走,机器人公司宣称构建 World(原 Worldcoin)模型,英伟达则称 Omniverse 是此类模型的基础设施,甚至游戏引擎也被卷入讨论。
尽管大家都在使用同一个术语,但实际上指的却是完全不同的东西:一个能生成美观但违背物理规律的火焰视频的模型,一个能即兴创作可玩游戏的语言模型,以及一个能精确模拟燃烧过程的物理引擎,都被赋予了同一个名称。
这种混乱恰恰出现在最需要精准度的时刻,因为语言模型学习的是文本的统计结构,而 World(原 Worldcoin)模型学习的是时空的统计结构,包括光线如何照射在物体表面、从相机从未捕捉到的角度看花园是什么样子,以及物体如何对力作出反应并遵循物理定律。
第一类投影是渲染器,其核心能力在于输出观测值,即面向人眼的像素,最重要的质量指标是视觉保真度。那些能将文本提示转化为电影级航拍画面的视频模型属于此类,谷歌的 Genie 3 或 World Labs 自己的 RTFM 这类交互系统也是渲染器,它们根据用户输入实时生成图像。
然而,这类模型并不具备对三维结构的明确理解,它们生成的是观看者能看到的内容,而非事物本身的真实模样。航拍画面中的建筑物可能看起来毫无瑕疵,但如果你尝试在这些建筑物所在的城市中穿行,它们就会立刻坍塌。谷歌的 Nano Banana 模型已经让数亿用户拥有了接近渲染器水平的图像生成能力,这项技术在商业层面发展最为成熟,大量图像或文本转视频产品正在快速扩展,覆盖消费市场和企业市场。但渲染器的优化目标在于视觉可信度而非物理精度,这构成了巨大的限制,其输出虽然美观,却无法用于设计建筑或训练机器人。
第二类投影是模拟器,其核心地位在于输出状态,即从几何、物理或动力学角度对世界的精确描述,人类和计算机程序都能对这些描述进行计算和操作。模拟器的功能纯粹是结构层面的,要求几何结构经得起检验,物理规律必须符合牛顿定律,动力学行为也要符合预期的物理法则。模拟器同时服务于两类用户:建筑师、设计师、电影制作者和游戏开发者等专业人士需要超出视觉可信度之外的精度;而强化学习智能体、机器人控制器和自动驾驶车辆等计算机程序则将模拟器作为训练场,通过大规模与世界互动来测试那些在现实中要么危险、要么成本高昂、要么根本无法实现的场景。
据 Woofun AI 整理,仅英伟达的 Omniverse,该公司估计其目标市场规模就将超过万亿美元,应用范围涵盖工厂、仓库、供应链以及数字孪生。机器人训练、自动驾驶测试、建筑可视化、工程设计以及药物发现等领域,都依赖于某种形式的模拟技术。模拟器是连接视觉表现和动作结果的结构骨架,一个掌握了模拟技术的模型,能够将其理解结果以像素形式呈现给人类,同时也能为实体智能体提供动作预测。
然而,该领域也面临严峻挑战:包含明确几何信息、材料属性和物理标注的三维数据,其稀缺程度远远高于用于训练渲染器的互联网视频;AI 生成的几何结构看似正确,但可能存在自相交或比例错误的情况,从而导致物理模拟中出现荒谬的结果;大规模多物理场模拟的计算成本——在这种模拟中,刚体、可变形物体、流体和织物会同时相互作用——仍然比单一领域模拟的成本高出几个数量级。
第三类投影是规划器,其潜力在于输出动作。给定一个观测值和一个目标,规划器要回答的问题是:智能体接下来应该做什么?在很多方面,规划器其实是渲染器的逆向过程。渲染器以动作作为输入并产生观测值,而规划器则以观测值作为输入并产生动作,从而完成感知 - 行动的闭环。视觉 - 语言 - 动作模型(VLA)、基于模型的系统以及新一代的 World(原 Worldcoin)动作模型,都是试图实现规划功能的不同尝试:让系统能够在非结构化的世界中决定机器人应该做什么。规划器最具潜力,但成熟度最低,它与快速发展中的机器人学习领域密切相关。在过去两年里,这一领域诞生了许多令人印象深刻的机器人演示视频,但我们必须诚实地面对这些演示实际上展现的是什么。几乎所有的演示都局限于高度受限的实验室环境,物体种类有限,任务持续时间也很短。没有任何一种演示经过过验证,能够满足在现实世界中部署时所需的复杂性、多样性和持续时间要求。令人惊叹的演示视频与能够在厨房、仓库或手术室中可靠工作的机器人之间,依然存在着巨大的差距。
尽管如此,商业领域的投入规模仍然相当可观,一大批资金雄厚的新公司正在竞相推出通用规划系统,而大型基础设施提供商则正在更广泛的模拟平台之上构建规划功能。
World Labs 的实践通过 Marble 模型展现了整合的可能性与数据挑战。Marble 已经能够同时输出高斯溅射图和碰撞网格,试图将渲染器和模拟器整合为一个模型。它能够接受多模态输入,包括文本、图像、视频或空间草图,生成可供探索的 3D 环境。高斯溅射图用于视觉探索,碰撞网格用于物理引擎运算。但 Marble 仅仅是一个漫长征程的第一章,该领域最棘手的未解问题集中在这里:数据分布极不均衡,渲染器能够获取大量的互联网视频,而模拟器和规划器则面临 3D 资产和机器人演示数据严重短缺的问题。为了追求视觉效果而优化,可能会牺牲机器人技术或高精度模拟所需的精度。如何在单一架构中协调这些矛盾,是当今 World(原 Worldcoin)模型研究的核心难题,也是 World Labs 在不断改进 Marble 的过程中致力于解决的问题。
未来趋势显示,边界正在消融,统一愿景逐渐清晰。当前该领域最重要的趋势是,这三大类别正在逐渐融合。人们普遍认为,渲染世界、模拟世界以及在其中采取行动所需的知识在很大程度上是相同的。以之前的例子来说,一个真正理解杯子如何放在桌子上的模型(包括它的几何形状、材料属性、对力的反应等等),就应该能够从任意角度渲染这个杯子,模拟杯子被推动时的情况,并规划出拾起杯子的动作。这三大类别其实只是同一底层理解的三种不同投影形式。来自不同机器人实验室的一些研究虽然数量不多,但仍在不断增加,它们证明了至少在概念层面上是可行的:一个预训练过的视频渲染器可以作为联合世界预测和动作预测的骨干网络,让单个模型同时能够想象'将会发生什么'以及'应该做什么',从而弥合渲染器和规划器之间的差距。World Labs 的 Marble 已经能够通过单个模型同时输出高斯溅射图和碰撞网格,从而消除了渲染器和模拟器之间的界限。每一层都在从被动输出向交互式系统转变:渲染器正在对动作条件做出响应,模拟器生成的世界也变得越来越容易控制和编辑,规划器则开始进行复杂的推理,而不仅仅是简单反应。最终的理想状态是一个统一的 World(原 Worldcoin)模型:这样一个基础模型能够生成逼真的视图,创建符合物理规律的结构,规划动作序列,并根据下游用户的需求在不同输出模式之间切换。
这一信念正在推动着整整一代研究的发展,而让这一信念更具说服力的是目前正在进行的融合——渲染、模拟和规划,这些最初各自独立、都已支撑起数十亿美元产业的研发方向,现在开始逐渐走向融合。当这些界限消失之后,三者的融合将进一步重塑一个更重要的问题:机器智能与其所处物理世界之间的关系,而这正是空间智能发展的长期方向。
从语言到物理世界的终极路径已然清晰。自 20 世纪 80 年代末以来,该领域一直秉持着同样的信念:只要 World(原 Worldcoin)模型足够丰富,智能体了解世界、构建世界并在其中行动所需的一切信息都包含在其中。语言让机器能够谈论这个世界,而 World(原 Worldcoin)模型,则是让机器最终理解、想象、推理并与之互动的路径。李菲菲在 drfeifei.substack.com 上的这篇长文,不仅是对当前混乱概念的分类梳理,更是对未来技术演进方向的深刻洞察。将系统分为渲染器、模拟器和规划器三部分的思路,或许确实有助于理清当前围绕 World(原 Worldcoin)模型概念的种种混乱,并为构建统一的基础模型提供理论框架。