登錄
註冊
據 Woofun AI 消息,2025 年 AI 領域最熱門卻最爲混亂的概念莫過於 World(原 Worldcoin)模型,李菲菲在個人 Substack 平臺發文指出,這一術語實爲部分可觀測馬爾可夫決策過程(POMDP)閉環的三種不同投影,即智能體、動作、狀態、觀測值與智能體構成的循環中,不同組件輸出的不同形式。
術語濫用的根源深植於歷史與哲學的模糊性之中。早在 1921 年,路德維希·維特根斯坦在《邏輯哲學論》中便提出'世界即一切發生之事的總和',然而古希臘人關於世界由火、水或原子構成的爭論從未停歇,AI 領域亦面臨同樣的困境。1943 年,肯尼思·克雷克首次提出大腦通過運行現實的'小型模型'進行推理,這一概念在 20 世紀 80 年代末和 90 年代初被引入神經網絡領域。如今,Sora 被 OpenAI 稱爲世界模擬器,Genie 允許用戶在生成圖像中行走,機器人公司宣稱構建 World(原 Worldcoin)模型,英偉達則稱 Omniverse 是此類模型的基礎設施,甚至遊戲引擎也被捲入討論。
儘管大家都在使用同一個術語,但實際上指的卻是完全不同的東西:一個能生成美觀但違揹物理規律的火焰視頻的模型,一個能即興創作可玩遊戲的語言模型,以及一個能精確模擬燃燒過程的物理引擎,都被賦予了同一個名稱。
這種混亂恰恰出現在最需要精準度的時刻,因爲語言模型學習的是文本的統計結構,而 World(原 Worldcoin)模型學習的是時空的統計結構,包括光線如何照射在物體表面、從相機從未捕捉到的角度看花園是什麼樣子,以及物體如何對力作出反應並遵循物理定律。
第一類投影是渲染器,其核心能力在於輸出觀測值,即面向人眼的像素,最重要的質量指標是視覺保真度。那些能將文本提示轉化爲電影級航拍畫面的視頻模型屬於此類,谷歌的 Genie 3 或 World Labs 自己的 RTFM 這類交互系統也是渲染器,它們根據用戶輸入實時生成圖像。
然而,這類模型並不具備對三維結構的明確理解,它們生成的是觀看者能看到的內容,而非事物本身的真實模樣。航拍畫面中的建築物可能看起來毫無瑕疵,但如果你嘗試在這些建築物所在的城市中穿行,它們就會立刻坍塌。谷歌的 Nano Banana 模型已經讓數億用戶擁有了接近渲染器水平的圖像生成能力,這項技術在商業層面發展最爲成熟,大量圖像或文本轉視頻產品正在快速擴展,覆蓋消費市場和企業市場。但渲染器的優化目標在於視覺可信度而非物理精度,這構成了巨大的限制,其輸出雖然美觀,卻無法用於設計建築或訓練機器人。
第二類投影是模擬器,其核心地位在於輸出狀態,即從幾何、物理或動力學角度對世界的精確描述,人類和計算機程序都能對這些描述進行計算和操作。模擬器的功能純粹是結構層面的,要求幾何結構經得起檢驗,物理規律必須符合牛頓定律,動力學行爲也要符合預期的物理法則。模擬器同時服務於兩類用戶:建築師、設計師、電影製作者和遊戲開發者等專業人士需要超出視覺可信度之外的精度;而強化學習智能體、機器人控制器和自動駕駛車輛等計算機程序則將模擬器作爲訓練場,通過大規模與世界互動來測試那些在現實中要麼危險、要麼成本高昂、要麼根本無法實現的場景。
據 Woofun AI 整理,僅英偉達的 Omniverse,該公司估計其目標市場規模就將超過萬億美元,應用範圍涵蓋工廠、倉庫、供應鏈以及數字孿生。機器人訓練、自動駕駛測試、建築可視化、工程設計以及藥物發現等領域,都依賴於某種形式的模擬技術。模擬器是連接視覺表現和動作結果的結構骨架,一個掌握了模擬技術的模型,能夠將其理解結果以像素形式呈現給人類,同時也能爲實體智能體提供動作預測。
然而,該領域也面臨嚴峻挑戰:包含明確幾何信息、材料屬性和物理標註的三維數據,其稀缺程度遠遠高於用於訓練渲染器的互聯網視頻;AI 生成的幾何結構看似正確,但可能存在自相交或比例錯誤的情況,從而導致物理模擬中出現荒謬的結果;大規模多物理場模擬的計算成本——在這種模擬中,剛體、可變形物體、流體和織物會同時相互作用——仍然比單一領域模擬的成本高出幾個數量級。
第三類投影是規劃器,其潛力在於輸出動作。給定一個觀測值和一個目標,規劃器要回答的問題是:智能體接下來應該做什麼?在很多方面,規劃器其實是渲染器的逆向過程。渲染器以動作作爲輸入併產生觀測值,而規劃器則以觀測值作爲輸入併產生動作,從而完成感知 - 行動的閉環。視覺 - 語言 - 動作模型(VLA)、基於模型的系統以及新一代的 World(原 Worldcoin)動作模型,都是試圖實現規劃功能的不同嘗試:讓系統能夠在非結構化的世界中決定機器人應該做什麼。規劃器最具潛力,但成熟度最低,它與快速發展中的機器人學習領域密切相關。在過去兩年裏,這一領域誕生了許多令人印象深刻的機器人演示視頻,但我們必須誠實地面對這些演示實際上展現的是什麼。幾乎所有的演示都侷限於高度受限的實驗室環境,物體種類有限,任務持續時間也很短。沒有任何一種演示經過過驗證,能夠滿足在現實世界中部署時所需的複雜性、多樣性和持續時間要求。令人驚歎的演示視頻與能夠在廚房、倉庫或手術室中可靠工作的機器人之間,依然存在着巨大的差距。
儘管如此,商業領域的投入規模仍然相當可觀,一大批資金雄厚的新公司正在競相推出通用規劃系統,而大型基礎設施提供商則正在更廣泛的模擬平臺之上構建規劃功能。
World Labs 的實踐通過 Marble 模型展現了整合的可能性與數據挑戰。Marble 已經能夠同時輸出高斯濺射圖和碰撞網格,試圖將渲染器和模擬器整合爲一個模型。它能夠接受多模態輸入,包括文本、圖像、視頻或空間草圖,生成可供探索的 3D 環境。高斯濺射圖用於視覺探索,碰撞網格用於物理引擎運算。但 Marble 僅僅是一個漫長征程的第一章,該領域最棘手的未解問題集中在這裏:數據分佈極不均衡,渲染器能夠獲取大量的互聯網視頻,而模擬器和規劃器則面臨 3D 資產和機器人演示數據嚴重短缺的問題。爲了追求視覺效果而優化,可能會犧牲機器人技術或高精度模擬所需的精度。如何在單一架構中協調這些矛盾,是當今 World(原 Worldcoin)模型研究的核心難題,也是 World Labs 在不斷改進 Marble 的過程中致力於解決的問題。
未來趨勢顯示,邊界正在消融,統一願景逐漸清晰。當前該領域最重要的趨勢是,這三大類別正在逐漸融合。人們普遍認爲,渲染世界、模擬世界以及在其中採取行動所需的知識在很大程度上是相同的。以之前的例子來說,一個真正理解杯子如何放在桌子上的模型(包括它的幾何形狀、材料屬性、對力的反應等等),就應該能夠從任意角度渲染這個杯子,模擬杯子被推動時的情況,並規劃出拾起杯子的動作。這三大類別其實只是同一底層理解的三種不同投影形式。來自不同機器人實驗室的一些研究雖然數量不多,但仍在不斷增加,它們證明了至少在概念層面上是可行的:一個預訓練過的視頻渲染器可以作爲聯合世界預測和動作預測的骨幹網絡,讓單個模型同時能夠想象'將會發生什麼'以及'應該做什麼',從而彌合渲染器和規劃器之間的差距。World Labs 的 Marble 已經能夠通過單個模型同時輸出高斯濺射圖和碰撞網格,從而消除了渲染器和模擬器之間的界限。每一層都在從被動輸出向交互式系統轉變:渲染器正在對動作條件做出響應,模擬器生成的世界也變得越來越容易控制和編輯,規劃器則開始進行復雜的推理,而不僅僅是簡單反應。最終的理想狀態是一個統一的 World(原 Worldcoin)模型:這樣一個基礎模型能夠生成逼真的視圖,創建符合物理規律的結構,規劃動作序列,並根據下游用戶的需求在不同輸出模式之間切換。
這一信念正在推動着整整一代研究的發展,而讓這一信念更具說服力的是目前正在進行的融合——渲染、模擬和規劃,這些最初各自獨立、都已支撐起數十億美元產業的研發方向,現在開始逐漸走向融合。當這些界限消失之後,三者的融合將進一步重塑一個更重要的問題:機器智能與其所處物理世界之間的關係,而這正是空間智能發展的長期方向。
從語言到物理世界的終極路徑已然清晰。自 20 世紀 80 年代末以來,該領域一直秉持着同樣的信念:只要 World(原 Worldcoin)模型足夠豐富,智能體瞭解世界、構建世界並在其中行動所需的一切信息都包含在其中。語言讓機器能夠談論這個世界,而 World(原 Worldcoin)模型,則是讓機器最終理解、想象、推理並與之互動的路徑。李菲菲在 drfeifei.substack.com 上的這篇長文,不僅是對當前混亂概念的分類梳理,更是對未來技術演進方向的深刻洞察。將系統分爲渲染器、模擬器和規劃器三部分的思路,或許確實有助於理清當前圍繞 World(原 Worldcoin)模型概念的種種混亂,併爲構建統一的基礎模型提供理論框架。