原文連結: Fei-Fei Li 如何為真實世界重建 AI

空間,3D 空間,外在的空間,你心目中的空間,空間智慧是智慧的關鍵部分。突然間,我們能夠創造無限的宇宙。有些用於機器人,有些用於創造力,有些用於社交,有些用於旅行,有些用於講故事。這將突然使我們能夠生活在多元宇宙中。

Fei-Fei Li 對 AI 的貢獻

我不需要 LLM 來讓我相信 LWM 的重要性。Martin,你何不為 Fei-Fei 稍微誇耀一下,簡要地向不熟悉她貢獻的人總結一下她對 AI 的貢獻?我是一個不需要太多介紹的人,她做過太多事情,我無法一一列舉。所以我只談與此相關的方面。當然,她曾任 Twitter 董事會成員,也是 Google 的高層主管,以及 World Labs 的創辦人兼 CEO。但非常非常重要的是,我們都知道 AI,大家都在談論神經網路,有很多人專注於使其有效,但 Fei-Fei 真正獨特地將數據引入了這個方程式,而我們現在才意識到這實際上可能是更大的問題,也是更有趣的問題。所以她確實是大家所稱的 AI 教母。

World Labs 的創立與「獨角獸投資人」的理念

Fei-Fei,你為什麼必須讓 Martin 成為第一位投資人?首先,我認識 Martin 十多年了。2009 年我以一位年輕助理教授的身份加入 Stanford,Martin 當時正在那裡完成他的博士學位。所以我一直都知道他,當然 Martin 的導師 Nick Matune 也是我的好朋友。我一直都知道 Martin 後來成為了一位非常成功的創業家和非常成功的投資人。所以我們經常見面,談論事情。但在我構思 World Labs 的想法時,我正在尋找我稱之為「獨角獸投資人」的人。我不知道這是不是一個詞,但這是我對此的看法,也就是說,不僅是一位非常成熟和成功的投資人,能夠與創業家一起經歷這段旅程的起伏,能夠富有洞察力,能夠帶來知識、建議和資源,而且我特別在尋找一位思想夥伴。因為我們在 World Labs 所做的是非常深度的科技。我們正在嘗試做一些前所未有的事情。我們堅信這將會真正地改變世界。但我需要一位電腦科學家,一位 AI 的學生,一位理解產品市場、進入市場、消費者的行銷策略的人,而且能夠每天隨時隨地與我通電話或面對面作為思想夥伴。我們第一次連結的故事實際上相當有趣。

世界模型的起源故事:一個共同的直覺

所以 Fei-Fei 顯然已經思考這個想法很長一段時間了,甚至可能是在 World Labs 創立之前就開始了數年。她會說她對 AI 需要什麼才能真正駕馭世界有著非常深刻的直覺。但我們在 Mark 的一個高檔晚餐或午餐上,有很多 AI 人士,每個人都對 LLMs 感到非常興奮,談論著語言。而我當時已經得出了一個獨立的結論,僅僅因為我實際上在圖像投資方面做了很多工作,所以我認為語言並不是故事的終點。所以,在餐桌的盡頭,所有這些人都在談論它時,Fei-Fei 傾向我,她說:「你知道我們少了什麼嗎?」我說:「我們少了什麼?」她說:「我們缺少一個世界模型(World Model)。」我說:「是的!」然後一切都就緒了,因為我一直在從高層次思考這些事情,但她就像她一貫的那樣,完美地闡述了這一點,她已經思考了一年,並且與人交談過等等。因此,在某種程度上,我們以各自曲折的道路達到了非常相似的直覺。她的想法更加充實,而我的只是一種空泛的想像。但在那之後,我們進行了一些對話,我們都同意我們在這種想法上是一致的。

其實我不知道你是否知道,當然在那次午餐期間,我們對世界模型這個想法一拍即合,但我當時已經在與各類人交談,不僅是電腦科學家、技術專家,還有投資人和潛在的商業夥伴。說實話,大多數人都不明白。他們只是點頭,但我能感覺到那只是禮貌性的點頭。於是我打電話給 Martin,問他是否願意來 Stanford 校園和我喝杯咖啡。我說:「Martin,你能向我定義你的世界模型嗎?」我真的很想聽聽 Martin 是否真的理解它的含義。而他對其的定義,一個真正理解世界 3D 結構、形狀和組合性的 AI 模型,這與我所說的完全一致。我當時心想:「哇,到目前為止,他是唯一一個真正理解我意思的人。」不只是點頭而已。哇。好,好。那麼我們接下來會談到 World Labs 及其具體內容,但或許首先我想帶你們回到你們的博士和教授生涯,思考一下,如果你們能回到過去,並且知道過去十年 AI 領域發生了什麼,你們認為最大的驚喜會是什麼?或者有什麼事情是你們沒預料到會震驚你們年輕時的自己?

AI 發展的驚奇與未預見

是的,說起來很諷刺,因為正如 Martin 所說,我是將數據引入 AI 世界的人,但我仍然在情感上如此驚訝,數據驅動模型,數據驅動的 AI 竟然能走到這一步,並且真正擁有驚人的思考機器新興行為,對吧?

超越語言:解決「北極星問題」

那麼,為什麼還要再創立一家基礎模型公司呢?為什麼不是 LLMs 呢?我的知識旅程並不是關於公司或論文,而是關於尋找「北極星問題」。所以不是我醒來就說我必須創立一家公司。過去幾年我每天醒來或日復一日地思考,除了語言之外,還有更多東西。語言是思想和資訊非常強大的編碼方式,但它並不是所有動物和生物所居住的 3D 物理世界的強大編碼方式。如果你看看人類智慧,很多都超越了語言的範疇。語言是一種有損捕捉世界的方式。

語言還有一個微妙之處在於,語言是純粹生成性的。語言在自然界中並不存在。我們環顧四周,沒有音節或單詞。而整個物理的、感知的、視覺的世界都在那裡,動物的整個進化歷史都建立在大量的感知和最終具體化的智慧之上。人類不僅生存、生活、工作,而且我們還透過建構世界和改變世界來建立文明。所以,這就是我想解決的問題。為了解決這個問題,研究顯然很重要,我花了多年時間作為一名學者來做這件事,而且仍然很有趣。但我確實意識到,尤其是與 Martin 交談後,時機已到,集中業界級別的努力,在計算能力、數據和人才方面的集中努力,才是將這一切實現的答案。是的。這就是為什麼我想創立 World Labs 的原因。太棒了。

語言與空間:對現實世界理解的差異

Eric,你可以做一個非常簡單的思維實驗,它能突出語言和空間之間的差異。如果我把你放在一個房間裡,蒙住你的眼睛,然後我只描述這個房間,然後要求你完成一項任務,你能夠做到的機會非常小。我會說:「哦,你前面 10 英尺有一個杯子,你知道,左邊是這樣。」這是一種非常不準確的傳達現實的方式,因為現實是如此複雜,而且是如此精確,對吧?另一方面,如果我取下你的眼罩,你能看到實際的空間,對吧?而你的大腦正在做的是重建 3D,對吧?那麼你就能夠去操縱物體和觸摸物體,對吧?

因此,一種思考方式是,我們進行大量的語言處理,並用它來交流和高層次的思想等等。但當涉及到導航實際世界時,我們非常非常依賴世界本身以及我們重建世界的能力。你是如何以及何時意識到語言可能不夠的?因為這似乎沒有廣為人知。我並不是一直聽到這種說法。

為何大型語言模型不足以解決問題

嗯,所以有一種,你知道,如果你問我這是一種什麼樣的、你知道的、令人驚訝的突破。那就是語言先行了,因為我們在機器人學上投入了如此多的努力,對吧?我的意思是,我覺得即使看看自動駕駛汽車,我的意思是,作為一個產業,我們已經投入了數千億美元,你知道嗎?我記得 Sebastian Thrun 實際上贏得了 2006 年的 DARPA Grand Challenge,我們當時歡呼,自動駕駛完成了,對吧?然後,你知道,20 年後,我們終於達成了這個目標,花費了數千億美元等等。這是一個 2D 問題。這就是我們當時走的道路,你要真正解決世界導航問題,這很困難,然後這些 LLMs 突然出現了,它們在單位經濟效益上是正面的,它們基本上立即解決了所有這些語言問題,所以這花了我一點時間,Fei-Fei 說得很好,你知道,我們大腦中處理語言的部分實際上是相當晚近的,所以我們在處理語言方面實際上是相當低效的,對吧?所以電腦做得更好,這並不是非常令人驚訝,但是大腦中實際進行導航的部分,你知道,空間的部分,已經存在了數百萬年了。也許爬行動物的大腦大約有四百萬年了。甚至比那還長。

空間智慧的演化根源

這是透過「心碎」而來的進化。對,透過心碎,對吧?五億年。對。所以,這幾乎就像我們正在展開進化一樣,對吧?因此,語言部分對於高層次的概念和筆記型電腦類的工作非常非常重要,這就是它目前正在影響的。但當涉及到空間時,這涵蓋了從機器人學到任何你試圖建構物理物體的領域,你都必須解決這個問題,然後我們從自動駕駛汽車那裡知道這是一個非常棘手的問題,但也許這值得討論的是,生成式浪潮為我們提供了一些關於如何做這件事的見解。所以這感覺就是時機了。

是的。我的旅程非常不同,因為我一直都專注於視覺,對吧?所以我覺得我不需要 LLM 來讓我相信 LWM 很重要。我確實想說,我們並不是在貶低語言。我只是非常興奮。事實上,看到 ChatGPT 和 LLM 以及這些基礎模型取得如此突破性的成功,激勵我們意識到世界模型的時機已近。但 Martin 說得非常漂亮。那就是空間,3D 空間,外在的空間,你心目中的空間,那種使人們能夠做許多超越語言的事情的空間智慧,是智慧的關鍵部分。它從古代動物一直延伸到人類最具創新性的發現,例如 DNA 的結構。對吧?那個在 3D 空間中的雙螺旋結構。你不可能單獨使用語言來推導出那個。你知道,這就是一個例子。我另一個最喜歡的科學例子是「巴基球」(Buckyball)。哦,對,碳碳分子結構,構造得如此精美。那樣的例子展示了空間和 3D 世界是多麼地深奧。

世界模型的應用與多重宇宙的想像

讓我們更進一步描繪 World Labs 實現其願景,或者說世界模型實現其願景時的情景。我們可以向觀眾展示哪些應用或使用案例,以幫助它們具體化?是的,有很多。例如,創造力是非常視覺化的。是的,我們有從設計到電影,從建築到工業設計的創作者。創造力不僅僅用於娛樂。它也可以用於生產力,用於機械,用於許多事情。僅此一項就是一個高度視覺化、感知和空間的領域或工作領域。當然,我們提到了機器人學。對我來說,機器人學是任何實體化的機器。它不僅僅是人形機器人或汽車。介於兩者之間的還有很多。但它們都必須以某種方式弄清楚它們所處的 3D 空間,必須經過訓練才能理解 3D 空間,有時甚至需要與人類協作完成任務,這就需要空間智慧。

當然,我認為一件令我非常興奮的事情是,在整個人類文明中,我們所有人都共同生活在一個 3D 世界中,那就是實體地球 3D 世界。我們中很少數人去過月球,但你知道,那數量非常少,但那是一個世界。但正是這種技術讓數位虛擬世界變得不可思議,我們應該談談它,這是生成和重建的結合,突然間我們能夠創造無限的宇宙,有些用於機器人,有些用於創造力,有些用於社交,有些用於旅行,有些用於講故事。它將突然使我們能夠生活在多元宇宙中,而這只是想像力無限的開端。

這些對話聽起來可能很抽象,但實際上並非如此。它們聽起來抽象的原因是,它就像 LLMs 一樣,是真正的橫向發展。所以,如果你們說 LLM 擅長什麼?同樣的 LLM,我們可以用它來進行情感交流,我們可以用它來編寫程式碼,我們可以用它來製作清單。所以我們用它來實現自我實現,對吧?所以我認為我們可以非常具體地談論這些模型的作用,對吧?使用這些模型,你可以從世界的 2D 視圖開始,然後你實際上可以創建一個完整的 3D 表示,包括你沒有看到的部分,例如桌子的背面,在電腦內部。所以,僅僅給予一個 2D 視圖,你就可以擁有完整的東西,然後你問,好的,你可以用那個東西做什麼?嗯,你可以操縱它,你可以移動它,你可以測量它,你可以堆疊它。所以任何你可以在空間中做的事情,你都可以做,對吧?這意味著你可以做建築,你可以做設計,但事實證明,填補桌子背面的能力意味著你可以填補從未存在過的東西,對吧?

所以假設我只有這張照片的 2D 圖片。我可以創建一個 360 度的全景,對吧?所以現在你擁有完全的生成能力。那這意味著什麼?這意味著,你知道,那是電動遊戲。那是創造力。所以這是一個超級橫向的環節,它基本上是讓電腦從一個世界中的單一視角,或者多個視角,創建一個完整的 3D 表示,然後電腦可以據此採取行動。所以你可以看到,這是一個非常具體的關鍵點,從機器人學到電動遊戲,再到藝術和設計,無所不包。

為何 3D 理解至關重要

看來我們直到現在才真正開始欣賞 3D 組件的重要性。這樣說公平嗎?這樣說很公平。事實上,我認為,演化花了很長時間。3D 不是一個容易的問題,但我總是回想起多年前我與我六歲的孩子關於為什麼樹沒有眼睛的對話,對吧?而根本的原因是樹不會移動。它們不需要眼睛。因此,動物生命的整個基礎是移動、做事情和互動,這賦予了感知和空間智慧生命,而空間智慧反過來將像 Martin 所說的那樣,水平地重塑人類工作和生活的許多方式。它需要 3D 嗎?還是說,你只需要 2D 就可以?物理發生在 3D 中,互動發生在 3D 中。在桌子後面導航需要在 3D 中進行。無論是物理上還是數位上,構建世界都需要在 3D 中進行。因此,從根本上說,這個問題是一個 3D 問題。

一種思考方式是,如果一個人正在看 2D 影片,這個人可以在他們的大腦中重建 3D,對吧?但是,如果你需要一台電腦,比方說我有一台機器人,它的模型輸出是 2D 的,然後你要求機器人做一些事情,我不知道是測量距離還是抓取什麼東西,那這些資訊就缺失了,例如,你知道,你只有 XYZ 平面,Z 平面根本就不存在,對吧?所以對於許多空間性的事物,你需要向電腦提供這些資訊,這樣你才能夠真正在 3D 空間中導航。所以 2D 影片對於人類來說很棒,因為我們已經可以將它轉化為 3D,但對於任何電腦程式來說,它都需要是 3D 的。

失去立體視覺的個人經驗

實際上,我想分享一個我的個人故事。大約五年前,很諷刺地,我因為角膜受傷而失去了幾個月的立體視覺。這意味著我當時只能用一隻眼睛看東西。正如 Martin 所說,我的整個生命都透過立體視覺來訓練。所以即使我當時只用一隻眼睛看,我大致知道 3D 世界是什麼樣子。但作為一名視覺科學家,那段時期對我來說是一段迷人的實驗,讓我體驗世界。有一件事真正讓我感同身受的是,我害怕開車。哇。首先,我無法以那種速度上高速公路,你知道嗎?但我只是在我自己的社區裡開車,我意識到在當地狹窄的道路上,我的車和停放的車之間沒有好的距離感,儘管我完全知道我的車有多大,幾乎知道鄰居的停放的車有多大,我知道這些道路很多年了,但只是在那裡開車,我不得不非常慢,幾乎是每小時 10 英里,這樣我就不會刮到車子。這正是為什麼我們需要立體視覺的原因,這是一個很棒的、一個很棒的例子,說明了為什麼如果你在進行一些處理,3D 是必需的,對吧?所以我不建議你這樣做,但如果你把車停在一個地方,然後用一隻眼睛開車,感受一下,那就是你自己的體驗。

世界模型研究現況與 World Labs 的願景

關於 LLMs,許多研究都是由大公司完成的,那麼這裡的研究現況如何?這絕對是一個相較於 LLM 而言更新的研究領域。說它完全新並不公平,因為在電腦視覺領域,我們作為一個學科,一直在做一些零星的工作。例如,3D 電腦視覺領域發生的一個重要革命是神經輻射場(NeRF),這項工作是由我們的共同創辦人 Ben Mildenhal 和他在 Berkeley 的同事完成的,這是一種使用深度學習進行 3D 重建的方式,大約四年前席捲了全世界。我們還有另一位共同創辦人 Chris Kristoff Lassner,他的開創性工作是高斯 splat 表示法再次變得非常流行,作為表示 3D 體積 3D 的一種方式。當然,還有 Justin Johnson,他是我以前的學生,也是 World Labs 的共同創辦人,他們是第一代深度學習電腦視覺學生之一,在 Transformer 出現之前,他們在圖像生成方面做了許多基礎性工作,我們當時使用 GANs 進行圖像生成,然後還有風格轉換,這在一定程度上普及了我們正在做的一些組成部分或要素。

所以,這些事情在學術界和工業界都在發生。在 World Labs,我們堅信我們將全力以赴解決這個單一的「北極星問題」,將世界上最聰明的人才,包括電腦視覺、擴散模型、圖形、電腦圖形、優化、AI 和數據領域的所有人才,都聚集到這個團隊中,努力使其成功並將其產品化。我的意思是,從一個外部人士的角度來看,我並不是這些領域的專家,但要解決這個問題,確實需要 AI 專家(包括數據和模型,即實際的模型架構)和圖形專家(如何將這些東西在記憶體中和螢幕上呈現出來)。所以,要解決這個問題,確實需要一個非常特別的團隊,而 Fei-Fei 已經成功地組建了這樣一個團隊。