為什么說 Sora 是世界的模擬器？

2024-02-21 10:36:21發(fā)布來源：飛哥說AI 作者：李志飛李維高佳

　　編者按：

　　本文轉(zhuǎn)載自“飛哥說AI”。作者在文中分析了“為什么說 Sora 是世界的模擬器?”他表示ChatGPT 作為語言模型，通過“語言”這一思維的載體，可以多方面模擬虛擬世界中的各種場景和角色(合理絲滑的故事線)，成為虛擬世界的“模擬器”。并且他們認為ChatGPT是懂得思維的，是理解思維世界的，具有自己的認知。

　　作者 | 李維高佳

　　創(chuàng)意 | 李志飛

　　AI 視頻生成的「ChatGPT時刻」比想象中提前了6個月。

　　Sora 的誕生意味著什么，何以堪稱「世界的模擬器」?

　　OpenAI 技術(shù)報告中透露，Sora 能夠深刻地「理解」運動中的物理世界，堪稱為真正的世界模型。

　　而 LeCun 則一貫酸溜溜地認為 Sora 不能理解物理世界，在他看來，「僅根據(jù)文字提示生成逼真的視頻，并不代表模型理解了物理世界。生成視頻的過程與基于世界模型的因果預(yù)測完全不同」。

　　Sora 真的理解物理世界嗎？與 ChatGPT 的底層邏輯有什么異同？

　　成為物理世界的模擬器，Sora 是唯一的解法嗎？

　　OpenAI 接連核爆，「暴力美學」之路真的能抵達 AGI 嗎？

　　01.

　　Sora 是世界的模擬器？

　　OpenAI 在其技術(shù)報告中只字未提與模型架構(gòu)、數(shù)據(jù)規(guī)模、訓練成本等相關(guān)的細節(jié)，但其標題赫然指出 Sora這類視頻生成模型是「世界的模擬器」。

　　OpenAI 想強調(diào)，Sora 不是單純的視頻生成模型，不只是視頻行業(yè)顛覆者，而是「世界的模擬器」——它打開了一條通往模擬物理世界的有效路徑。

　　OpenAI 僅列舉了作為物理世界的模擬器應(yīng)具備的幾個特點和例子——3D一致性、遠程相關(guān)性、物體持久性、與世界互動等，卻并未對“什么是世界的模擬器”做任何定義和具體分析。

　　但我們大概可以總結(jié)出它的邏輯：Sora生成的視頻能夠在相當長的時空范圍內(nèi)，不違反物理世界的常見規(guī)律（比如重力、光電、碰撞等）。如果模型規(guī)模進一步提升，它有可能模擬生成物理世界的一切視頻。

　　我們不禁疑問，為什么 OpenAI 在此時提出「模擬器」這一概念，它究竟是什么？如何成為「世界的模擬器」？與單純的視頻生成模型有什么邏輯關(guān)系？進而，一個能夠模擬復(fù)雜世界動態(tài)的 AI 會將人類帶往何處？

　　在談物理世界的模擬器之前，我們先重溫一下虛擬世界的模擬器——ChatGPT.

　　02.

　　ChatGPT 是虛擬思維世界的“模擬器”？

　　何謂“模擬器”，顧名思義，如同動態(tài)鏡像一般，模擬器是可以逼真“反映”虛擬世界或現(xiàn)實世界的模型或系統(tǒng)。

　　游戲可視為一種對現(xiàn)實世界的模擬，所謂數(shù)字世界。

　　游戲的數(shù)字世界通常有一個既定的環(huán)境，包括人物、場景、功能道具等，還有一個起始的配置。給以目標指令，按下『start』，游戲主角便可以開始出發(fā)探索這個世界，與之互動。

　　比如在小游戲《超級馬里奧》中，主角馬里奧和每一關(guān)卡的場景都是既定的環(huán)境，小馬里奧只身出場是起始配置，在規(guī)則下贏得金幣是目標指令，『start』游戲開始，直達旅程目標。

　　這就是一個最簡單模擬器的模擬過程，構(gòu)造了一個既定場景的小世界。

　　在 ChatGPT 這類應(yīng)用中，我們通?？梢詾槟Ｐ驮O(shè)置角色，例如設(shè)置為用戶的助理、教師或伴侶(可視為環(huán)境)，用戶就可以給出目標指令開始與之交互。

　　比如可以讓 ChatGPT 寫一篇關(guān)于 Sora 的文章，給它一段開頭，ChatGPT 就會續(xù)寫整篇;給定一段故事結(jié)尾，它可以補足故事的來龍去脈;給出一段故事節(jié)選，它可以展開前后兩端的想象，予以擴寫;給定完整的篇幅，它也可以縮寫摘要。成篇非常順暢絲滑，符合文法和邏輯。

　　這些語言任務(wù)的完成，其實是在模擬創(chuàng)作者的思維過程。

　　而對創(chuàng)作者思維的模擬，需要遵從思維背后的邏輯和常識。比如 ChatGPT 在續(xù)寫 Sora 原理的文章時，會圍繞深度學習和語言模型層層推進，邏輯線條合理，而不會跳躍到辛亥革命或咖啡機使用指南。

　　ChatGPT 作為語言模型，通過“語言”這一思維的載體，可以多方面模擬虛擬世界中的各種場景和角色(合理絲滑的故事線)，成為虛擬世界的“模擬器”。

　　既然 ChatGPT 對答如流，也能模擬不同風格的文學家、詩人寫詩作文，作品不違反常識，也符合人類思維規(guī)律，那是否說明它就掌握了這些規(guī)律呢?

　　功能主義角度的回答是肯定的。我們可以認為ChatGPT是懂得思維的，是理解思維世界的，具有自己的認知。雖然我們沒有一一教他具體的思維邏輯和常識，但它讀遍浩瀚的書籍數(shù)據(jù)，已然從數(shù)據(jù)中汲取了海量的知識，掌握了知識背后的思維邏輯。

　　ChatGPT這類語言模型從語言大數(shù)據(jù)中的學習，實際上就是在模擬一個充滿了人類思維和認知映射的虛擬世界。

　　今天的ChatGPT已經(jīng)攻下了虛擬世界“模擬器”的堡壘。它所反映的人類認知，包括常識、百科知識以及推理邏輯，實際上已經(jīng)遠遠超過了絕大部分人類個體。

　　那么物理世界的模擬器會以何種方式呈現(xiàn)?

　　03.

　　何為物理世界的模擬器？遵循物理世界規(guī)律

　　如同人類的思維世界要前后自洽，不違反常識，遵循分析歸納、邏輯推理等「規(guī)律」(統(tǒng)稱思維邏輯)，物理世界也有背后的「規(guī)律」，包括能量守恒定律、熱力學定律、力的相互作用定律等等。

　　比如蘋果不能突然在空中漂浮，這不符合牛頓的萬有引力定律;比如在光線照射下，物體產(chǎn)生的陰影和高光的分布要符合光影規(guī)律等;比如物體之間產(chǎn)生碰撞后會破碎或者彈開。

　　作為“物理世界的模擬器”，需要能夠在虛擬環(huán)境中重現(xiàn)物理現(xiàn)實，為用戶提供一個逼真且不違反「物理規(guī)律」的數(shù)字世界。

　　技術(shù)上至少有兩種方式可以實現(xiàn)這樣的模擬器，一種是通過大數(shù)據(jù)學習出一個AI系統(tǒng)來模擬這個世界，比如說本文討論的 Sora。

　　另外一種是弄懂物理世界各種現(xiàn)象背后的數(shù)學原理，并把這些原理手工編碼到計算機程序里，從而讓計算機程序“渲染”出物理世界需要的各種人、物、場景、以及他們之間的互動。

　　虛幻引擎（Unreal Engine，UE）就是這種物理世界的模擬器。它內(nèi)置了光照、碰撞、動畫、剛體、材質(zhì)、音頻、光電等各種數(shù)學模型。一個開發(fā)者只需要提供人、物、場景、交互、劇情等配置，系統(tǒng)就能做出一個交互式的游戲，這種交互式的游戲可以看成是一個交互式的動態(tài)視頻。

　　UE 這類渲染引擎所創(chuàng)造的游戲世界已經(jīng)能夠在某種程度上模擬物理世界，只不過它是通過人工數(shù)學建模及渲染而成，而非通過模型從數(shù)據(jù)中自我學習。而且，它也沒有和語言代表的認知模型連接起來，因此本質(zhì)上缺乏世界常識。而 Sora 代表的AI系統(tǒng)有可能避免這些缺陷和局限。

　　04.

　　為什么 Sora 有望成為世界的通用模擬器？

　　不同于 UE 這一類渲染引擎，Sora 并沒有顯式地對物理規(guī)律背后的數(shù)學公式去“硬編碼”，而是通過對互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)進行自監(jiān)督學習，從而能夠在給定一段文字描述的條件下生成不違反物理世界規(guī)律的長視頻(雖然目前長度只有一分鐘，但是完全碾壓了此前有數(shù)秒限制的類似競品，如曾被熱捧的 Pika 和 Runway)。

　　與 UE 這一類“硬編碼”的物理渲染引擎不同，Sora視頻創(chuàng)作的想象力來自于它端到端的數(shù)據(jù)驅(qū)動，以及跟LLM這類認知模型的無縫結(jié)合。

　　端到端的數(shù)據(jù)驅(qū)動更加通用、更方便迭代提升

　　與歷史上所有的數(shù)據(jù)驅(qū)動的端到端AI系統(tǒng)一樣，Sora 的優(yōu)勢是如果數(shù)據(jù)給力，數(shù)據(jù)量足夠大，它可以覆蓋各種各樣的邊界條件下的復(fù)雜度。與之相比，UE 能夠硬編碼的數(shù)學原理和場景模版畢竟是有限的，更何況很多物理世界的現(xiàn)象，人類還沒有發(fā)現(xiàn)其背后的數(shù)學原理。

　　所以很多時候，UE游戲開發(fā)者不得不犧牲用戶體驗，或者手工對某些特殊情況“頭痛醫(yī)頭”地做針對性專門編碼。比如，由于材質(zhì)和碰撞模型的不完善，大家經(jīng)?？吹綌?shù)字人直播時的穿?，F(xiàn)象(手插到肚子里去了)，而要解決穿模問題得做很多額外的工作。

　　以迭代完善的角度，對于數(shù)據(jù)驅(qū)動的AI系統(tǒng)，我們只要利用摩爾定律，不停地加大數(shù)據(jù)和算力，系統(tǒng)就會自動越來越完善。而“硬編碼”的系統(tǒng)則依賴于“人工”的努力和進展。

　　與認知模型的無縫融合讓多模態(tài)模型更加通用和魯棒

　　與很多人一樣，我們?yōu)?Sora 視頻的高質(zhì)量所折服，但讓我們真正興奮的是， Sora 類視頻生成模型的架構(gòu)終于向 LLM 的架構(gòu)靠近。

　　比如 Sora 采用 Transformer 作為模型的骨架來學習文本和視頻的關(guān)系以及視頻內(nèi)部的時空關(guān)系。又比如 Sora 把視頻數(shù)據(jù) token 化。這樣的好處是視頻生成模型能跟 LLM 在模型層面無縫融合。

　　雖然我們現(xiàn)在無法判斷 Sora 的訓練是否將 LLM 作為起點，然后再加入視頻的模態(tài)繼續(xù)訓練。但是幾乎可以肯定的是，未來的多模態(tài)模型都會把 LLM 作為起點，從而把 LLM 的認知能力遷移到下游的其它模態(tài)里。

　　這既提升了下游模型的智能天花板，也大大降低了下游模型的數(shù)據(jù)需求。筆者多次強調(diào)，這種跨模態(tài)的知識遷移可能是 LLM 對AI建模的最大貢獻，已經(jīng)在RT-2、Gemini、出門問問魔音工坊的語音大模型等很多實踐中得到證明。

　　為什么LLM的認知賦能及其與視頻模型的無縫融合這么重要?

　　前文提到如果視頻生成模型要成為世界的模擬器，那它生成的視頻必須得符合物理規(guī)律。我們可以從大量的視頻數(shù)據(jù)里學習這些規(guī)律，也可以直接繼承語言模型里海量的常識，而繼承這些常識會大大降低對視頻數(shù)據(jù)的質(zhì)量和數(shù)量的需求，也會大大降低模型學習的難度。

　　比如，如果我們讓 Sora 生成一只杯子掉在地板上的視頻。今天的大語言模型，比如出門問問的「序列猴子」，就含有玻璃會碎、水會濺出等常識(見下圖)。

　　有了這些常識，視頻生成模型將不再需要大量的類似玻璃掉地的視頻數(shù)據(jù)來訓練，從而大大降低了生成逼真視頻的難度。語言模型還包含了對其它物理規(guī)律(比如聲光電、碰撞等)的各種描述。

　　所以，如果 Sora 訓練的基礎(chǔ)是一個語言模型，這個模型不僅僅處理文本數(shù)據(jù)，而且繼承了對世界常識的理解。

　　通過引入多模態(tài)數(shù)據(jù)處理能力——特別是視頻與文本對應(yīng)的數(shù)據(jù)——Sora 能夠?qū)崿F(xiàn)更深層次的Grounding，即將語言的虛擬概念與物理世界的具體實例緊密關(guān)聯(lián)。

　　這種能力使得 Sora 在模擬物理世界時，能夠更準確地反映出現(xiàn)實世界的復(fù)雜性和多樣性。具象的視頻訓練數(shù)據(jù)總是有限的，因此模型所能學到的物理現(xiàn)象總有局限。

　　但語言模型中的物理常識幾乎是面面俱到的，這是由語言作為思維認知模型的本性所決定的。這種知識遷移彌補了視頻數(shù)據(jù)不可能面面俱到的短板。

　　語言模型是多模態(tài)大模型的核心，必將居于獨一無二的中心賦能地位。而「視頻」作為物理世界的映像，是世界模型渲染出來的結(jié)果。

　　相比語言數(shù)據(jù)，通過視頻大數(shù)據(jù)學習到的模型是“模型的模型” ，同時學到了很多物理世界規(guī)律，讓模型更加逼近模擬物理世界。

　　文本與視頻的區(qū)別在于，前者是理解人類的邏輯思維，后者在于理解物理世界。所以，視頻生成模型 Sora 如果能很好跟文本模型 LLM 融合，那它真有望成為世界的通用模擬器。如果有一天，這樣的系統(tǒng)自己通過模擬駕車場景，學會了在城市復(fù)雜的交通環(huán)境下開車，我們應(yīng)該也不會奇怪。

　　我們認為，Sora 之所以有潛力成為下一代物理世界模擬器的翹楚，主要歸功于其基于多模態(tài)大模型的設(shè)計理念及其實現(xiàn)中巨大算力和工程能力。

　　Sora 在視頻賽道重現(xiàn) ChatGPT 式的成功，很可能得力于其把虛擬世界的模型(LLM)落地到具象化的物理世界模型(視頻生成)，如果現(xiàn)在不是這樣，將來也大概率是。

　　能生成世界，就意味著理解世界？

　　類比語言模型，面對ChatGPT的對答如流、通情達理，我們反思語言模型到底是否學會了“思維”和“理解”?

　　雖然尚無法從原理上解釋，但從結(jié)果上看，它與基于對語言的深刻理解所呈現(xiàn)出來的行為是一致的，我們可以認為它其實已經(jīng)學會了虛擬世界的“思維”和“理解”;那今天的 Sora 已經(jīng)可以在長時空的范圍里生成不違反物理規(guī)律和常識的視頻，我們是否也可以認為，它已經(jīng)理解了物理世界?它具備了世界模型的能力?

　　模擬物理世界，Sora 是唯一解法嗎？

　　如果 Sora 深度融合 LLM (如 ChatGPT)被認知智能充分賦能，它的確有望成為「世界的模擬器」。除此之外，還有其他成為世界模擬器的可能性解法嗎?另外一種可能是：ChatGPT + UE。

　　如果我們能把自然語言模型(如 ChatGPT)與物理渲染引擎(如 UE)結(jié)合起來，把自然語言模型的描述轉(zhuǎn)換成 UE 的描述語言，然后由 UE 來渲染出視頻，是不是也意味著一個可行的物理世界模擬器?

　　在很多對通用性的要求不那么高的場景中，這可能是優(yōu)于 Sora 這種端到端模型的選擇，估計未來很快會看到這樣的嘗試。但是，UE的天花板就是整個系統(tǒng)的天花板。

　　另外一個相關(guān)話題，Sora 的訓練可能用了 UE 合成的數(shù)據(jù)，但 Sora 模型本身應(yīng)該沒有調(diào)用 UE 的能力。

　　05.

　　從虛擬到物理，如果世界皆可被模擬，什么是現(xiàn)實？

　　如果說這個世界（無論是虛擬世界還是物理世界），其背后存在著簡單的規(guī)律和模型，那么文本和視頻等模態(tài)就是這些規(guī)律的具體呈現(xiàn)，也可以說是渲染。

　　OpenAI 的 ChatGPT 和 Sora 通過互聯(lián)網(wǎng)上海量的自然的文本和視頻數(shù)據(jù)，“隱式”地學會了這些數(shù)據(jù)背后的規(guī)律和模型。那么，未來是否有一天，ChatGPT 和 Sora 之類的系統(tǒng)還將融合味覺、觸覺等其他模態(tài)，從而可以模擬我們的整個世界呢?

　　如果這一天到來，什么是現(xiàn)實呢?我們是否還那么堅定地相信我們這個物理世界不是被模擬出來的?科幻電影所描述的世界是否仍是科幻呢?這是現(xiàn)代版的莊周夢蝶，古老的哲學思辨在后現(xiàn)代的技術(shù)浪潮中再度沖擊我們的信仰，細思有點恐。

　　展開想象，為什么AI模擬器不可以模擬巴以沖突、中美關(guān)系，模擬人類從山頂洞走向農(nóng)耕文明的過程呢?「世界模擬器」通過模擬不同的事件和情景，預(yù)測未來的發(fā)展趨勢，或可輔助決策制定。Sora 類不僅能夠模擬政治經(jīng)濟、人類社會等宏觀層面的動態(tài)，也應(yīng)該可以深入到病毒傳播、交通規(guī)劃等微觀領(lǐng)域。這一切最終是否會改變各種學科研究的方式?

　　我們可以展望，AI 有能力通過模擬學會各種物理世界的技能。比如城市駕駛，AI 可以從文本里學到各種駕駛規(guī)則，自己渲染一些交通視頻場景并在這些場景里學習提升，從而學會基本駕駛技能。當然，模型最后還是會有真正物理環(huán)境下的Fine Tuning。如果機器人能夠自主學習各種技能，這是否也會改變機器人服務(wù)世界的發(fā)展路徑?

　　總之，如果未來的 AI 既理解了人類思維，又理解了物理世界，而且還不知疲倦自主模擬學習，下一步將會“涌現(xiàn)”怎樣的斑斕世界?人類如何自處?

　　06.

　　暴力美學能抵達 AGI 嗎？

　　回看OpenAI的最初勝利，主要并非算法上的創(chuàng)新，而是「暴力美學」的勝利。

　　如今，以GPT為代表的「暴力美學」已成為工業(yè)界凝聚了共識的做 AI 的方法論：把模型架構(gòu)做得簡簡單單，但足夠通用，然后把精力放在猛搞數(shù)據(jù)和算力上。

　　這一次 Sora 的成功延續(xù)了 OpenAI 的暴力美學的套路。把 Diffusion Model 里的 Unet 換成 Transformer、把視頻的時空 Patch 轉(zhuǎn)換成 Token 等之類的想法應(yīng)該很多人拍腦袋都能想到，都是對模型的簡化從而更便于 Scale Up。但是，能夠堅信這些簡單的 ideas、并有能力和有條件把規(guī)模真正做上去修成正果的卻是鳳毛麟角。

　　OpenAI 這次關(guān)于 Sora 的技術(shù) blog 里的兩段話，把這種信念的力量體現(xiàn)得淋漓盡致。

　　“These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.”

　　“We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people, animals and environments from the physical world. These properties emerge without any explicit inductive biases for 3D, objects, etc.—they are purely phenomena of scale.”

　　第一段話表達了他們對 Scaling 的信念，而第二段話強調(diào)了 Scaling 導致涌現(xiàn)的實證。

　　這次 Sora 的發(fā)布又讓很多人對 AGI 的實現(xiàn)更加樂觀了，可能也讓心高氣盛的 OpenAI 對 Scaling Law 和暴力美學的信念進一步堅定。但是，沿著 Scaling Law 和暴力美學一定能抵達 AGI 嗎?面對飛速發(fā)展的AI科技，也許只能拷問自己，到底是因為看見而相信，還是因為相信而看見?

　　可以肯定的是，Sora 如果真能實現(xiàn)對物理世界的模擬、能夠跟 LLM 代表的虛擬世界無縫融合，那它必然是通往 AGI 路上的里程碑。

　　結(jié)語

　　當我們回到人類文明的前夜，從用石頭砸開堅果，從山洞走向茅屋，一一回望人類最早的科技成就——石制工具、火、衣服、長矛和弓箭是如何被發(fā)明的。正是有了讓能力邊界不斷延伸的它們，人類才得以走出非洲。

　　其中最重要的一項能力——語言能力，它使現(xiàn)代智人能有效傳遞信息，不斷完成物理世界的任務(wù)，最終將尼安德特人趕到比利牛斯半島的盡頭，成為世界主人。

　　而今天，掌握人類語言的AI，將能進一步地通過視頻生成模擬世界，面向我們?yōu)橹杠S的 AGI 時刻，是否已是另一種文明的前夜?

商學院

Open Talk

為什么說 Sora 是世界的模擬器？

相關(guān)閱讀

商學院

Open Talk

為什么說 Sora 是世界的模擬器？

相關(guān)閱讀

為什么說 Sora 是世界的模擬器？