原文連結: NUS120 傑出講者系列 | Yann LeCun 教授
[音樂] [音樂] [音樂] Yann LeCun 教授,Meta 副總裁暨首席 AI 科學家,紐約大學 Jacob T. Schwarz 教授,NUS 校長陳永財教授,各位貴賓,女士們先生們。大家早安,歡迎參加 NUS120 傑出講者系列「塑造 AI 創新的未來」。 我是 Rachel,來自人文與社會科學院地理學系四年級學生,也是本次活動的司儀。NUS120 傑出講者系列邀請引人入勝的講者,分享他們對影響我們國家、地區和世界的未來緊迫議題的獨特見解。 此系列探討「塑造未來」這個總體主題,並鼓勵發人深省的想法和對話,激發辯論和討論。今天早上,我們很榮幸邀請到 Meta 副總裁暨首席 AI 科學家、紐約大學 Jacob T. Schwarz 教授 Yann LeCun 教授。 與 LeCun 教授進行問答環節的主持人是 NUS 計算機科學 Provost 講座教授、NUS AI 研究所所長、新加坡 AI 副執行主席 Mohan Kankanhali 教授。現在,我很榮幸邀請 NUS 校長陳永財教授致開場詞。陳教授,請。大家週日早上好,歡迎來到 NUS Kent Ridge 校園。 看到這裡座無虛席真是太棒了。我們實際上在分會場也有觀眾,還有很多人透過直播參與。首先,我要熱烈歡迎遠從紐 York 來的 Yann LeCun 教授。我們感謝 Yann 接受我們 NUS120 傑出講者系列的邀請。
開場致詞
我們今天的焦點是 AI 創新這個及時的議題。我們正處於創新故事中一個非常激動人心的篇章。事實上,AI 已經為創新注入了強大的動力,也使其規模巨大化。新的想法、技術和應用正以非常快的速度和前所未有的廣度湧現。它正在徹底改變每個行業,並幾乎存在於我們生活的方方面面。 智慧功能已經達到了一個全新的水平。在 NUS,我們鼓勵學生和研究人員進行實驗,並利用 AI 來發掘其潛力。我們成立了由 Mohan Kanka 教授領導的 NUS AI 研究所。這是一個全校範圍的平台,核心 AI 研究人員可以在此與跨學科研究人員互動,以創造跨學科的影響力。 所以 AI + X,X 可以是任何領域,實際上開闢了許多解決真正複雜問題的新機會。當經過深思熟慮地應用時,AI 可以幫助解決我們面臨的一些最大挑戰,從管理新加坡快速老齡化人口的醫療保健需求,到優化我們的城市系統以提高效率、永續性和韌性等等。 雖然 AI 令人著迷並席捲全球,但問題依然存在:AI 將如何持續創新?AI 的發展是否會達到極限?AI 是否真的達到了人類的智慧?這讓我想起了 Yann 的一句簡單卻引人注目的話,我想引用:「一頭大象或一個四歲的孩子比任何大型語言模型都聰明得多。」 所以在四年內,一個孩子所見的數據量是現今最大 LLM 的 50 倍。人類智慧是建立在我們的互動、感官、經驗之上,絕對遠遠超越文本或語言。所以今天早上,我們很榮幸邀請到處於 AI 發展最前沿的深度學習專家 Yann LeCun 教授來談論這個話題。 我們期待從 Yann LeCun 教授的演講中獲得洞見,並祝願大家有一個富有成果且富有成效的會議。謝謝。謝謝陳教授。我現在很榮幸邀請我們的講者 Yann LeCun 教授上台。LeCun 教授,請。非常高興來到這裡。非常感謝大家在週日早上如此踴躍地出席。 嗯,我不確定在其他國家,這種週日早上的會議能在多大程度上成功。好的。嗯,我將談談 AI 的未來,也談一點現在,因為要走向未來,你必須辨識當前方法的局限性,這樣才能超越它們。 我在右邊放了一張雙星系的漂亮照片。我喜歡在演講開頭放這張照片,因為我為此感到自豪。這是我在新澤西自家後院拍的照片。它是 M51 星系。我有一個小望遠鏡。好的。那麼,關於 AI 的未來呢?嗯,我們希望的是… 首先,切換投影片。呃,好的,這個沒反應。 幾分鐘前還可以用的,但好吧,來了。嗯,所以第一件事,你知道很多人一直在問這個問題,我們是否需要建立具有… 你知道,類人智慧的系統?答案是絕對需要。目的有好幾個。
AI 的未來與當前限制
目的不是要取代人類,好的,而是要真正地增強人類的智慧。嗯,但要增強人類智慧,你基本上必須或多或少地建立虛擬人類。原因是我們最熟悉的那類實體就是其他人類。所以我們基本上需要有能夠像其他人類一樣理解世界和理解人類的系統,因為這將是賦予人類力量最簡單的方式。 嗯,當然還有另一個原因,純粹是科學上的原因。如果… 如果我們揭開了智慧和學習的奧秘,我們可能會更了解自己。所以這既是一個科學問題,也是一個技術問題,實際上也是一個產品需求。好的。所以有一個未來,我們與數位世界和知識的大部分互動將透過 AI 助理作為中介。 我們大部分的數位飲食,或者說資訊飲食,將來自 AI 系統。所以我們需要這些系統在某種程度上比我們更聰明。這樣它們才能在我們的任務中協助我們,而且它們需要易於互動,因為我們需要全世界都能夠使用它。好的。 所以,你知道,這些對未來的願景,曾在科幻小說中被描繪,像是 2013 年的電影《Her》。嗯,但對 Meta 來說,這也是一個長期的產品願景,我們所有人都將帶著智慧設備四處走動,裡面住著智慧 AI 助理,基本上會在我們的日常生活中幫助我們。 事實上,我現在就戴著智慧眼鏡,我可以和 Meta AI 助理交談。我可以問它任何我想問的問題。我不會在你們面前這樣做,但我要給你們拍張照。好的。你們笑一個。好的。嗯,我本可以透過要求助理拍照來完成,但按一個按鈕更簡單。 嗯,好的。那麼,哎呀。是的,來了。呃,所以那個願景… 在 Meta,有 AI 方面的研究,試圖讓機器足夠智慧以變得有用,或更普遍地有用,但也有硬體的部分,人們在 AI 時代將會使用的下一個計算平台會是什麼?所以很有可能,傳統的計算世界介面,像是圖形使用者介面(GUI)、指向和點擊,將會 退居次要地位,讓位給更自然的介面,透過語音,以及透過其他類型的設備。所以,Meta 生產了一些示範系統,像是 Orion 眼鏡,你們有些人可能聽說過。所以,有些眼鏡比我現在戴的稍微大一點,重一點,並且有擴增實境顯示器。 我戴的這副沒有顯示器,嗯,並且有各種能力。嗯,它們基本上可以觀察你在做什麼,你可以問它們,我把車停在哪裡了?嗯,我忘了我把鑰匙放在哪裡了。當你離開餐廳,把手機留在桌上時,它會告訴你,你應該拿起你的手機。你忘了它在桌上。我的意思是,所以它將會… 你知道,我們與世界的關係將會改變,它將允許我們,你知道,專注於更適當屬於人類的事物,像是人與人之間的互動、創造力,以及這類型的活動。 嗯,這有點像我們每個人都會帶著一個由聰明人組成的虛擬團隊一起工作。我們都會感覺像,你知道,政治人物,他們不能在沒有一群比他們都聰明的人組成的團隊的協助下四處走動,在他們的日常生活中幫助他們。這是一樣的道理。 我們將會有虛擬的人,可能比你更聰明,一直跟著我們。嗯,好的。這裡有一個主要問題,那就是目前的 AI 技術根本達不到我們需要的水平。所以我這裡有爭議地說,機器學習很爛,這確實是真的,因為目前機器學習系統的能力以及它們學習新任務的能力,真的… 完全達不到我們在人類和動物身上觀察到的水平,我將會舉幾個例子。
現有 AI 技術的不足
所以我們需要,你知道,能夠非常快速學習新任務的 AI 系統。它們需要理解物理世界,不僅僅是文本和語言,而是真實世界。嗯,具有一定程度的常識。嗯,當然還有推理和規劃的能力,持久的記憶,所有我們期望從智慧實體獲得的東西。 我們還需要的是,這些系統由我們給予它們的目標所驅動。好的?對於大多數目前的 AI 系統來說,情況並非如此。你不能… 你知道,你可以要求一個 LLM 回答一個問題,但 LLM 可能會也可能不會實際回答你的問題,而且沒有辦法真正給它一個目標,讓它規劃一系列行動或一個答案來滿足或完成這個目標。 所以我們需要未來的 AI 系統是目標驅動的。好的。所以,你知道,業內有些人,特別是在矽谷的某些資訊泡沫中,一直聲稱 LLM 非常強大。所以要達到人類智慧,我們只需要擴大它們的規模,用更多的數據訓練它們,最終它們就會達到人類水平的智慧。 甚至有人說,兩年內我們將擁有具有博士水平能力的 AI 系統,例如在數學和其他類似領域。嗯,這是錯誤的,而且這是世世代代的 AI 科學家一再犯的錯誤。 即使在 50 年代,AI 的先驅們也認為,你知道,智慧可以簡化為一個尋找解決方案的問題。如果你能指定一個問題,並以數學函數的形式指定問題是否已解決,那麼這只是一個在可能性空間中搜索解決方案的問題。 所以 Newell 和 Simon 在 50 年代提出了一個名為「通用問題解決器」的程式,非常謙虛,好的,然後說就是這樣,你知道,我們可以從… 如果你能將一個問題描述成一個搜索,那麼我們有一個通用程式,它只是系統地搜索可能的解決方案空間,最終會找到一個。 當然,這是在人們意識到大多數有趣的問題擴展性極差之前。所以,它們基本上需要搜索一個指數級增長的解決方案集合。所以,那結果並不是那麼通用。但是,然後這個錯誤又在第一代學習機器,感知器(perceptron)上重演了。 人們聲稱,你知道,現在我們有了可以學習的機器,所以它們將在 10 年內變得智慧。而且,一代又一代的 AI 科學家都提出了這樣的主張。在過去的 70 年裡,這是錯誤的。現在仍然是錯誤的。嗯,這比我們想像的要困難得多。
大型語言模型 (LLM) 的原理與缺陷
好的,那麼,什麼是 LLM?LLM 是一個被訓練來在輸出端重現其輸入的系統。好的,這樣說聽起來很奇怪,但這確實是它的訓練方式。你取一個詞序列。它不是詞,是 token,但好的,這是個小細節。然後你訓練一個大型神經網路在它的輸出端重現那個序列。 基本上就是訓練它成為一個恆等函數(identity function)。好的,這聽起來很容易,但系統的架構使得系統不能查看某個特定的輸入 token 來計算那個輸出的 token。它只能查看它左邊的 token。好的,這被稱為因果(causal)架構。 所以隱含地,當你訓練系統在輸出端重現其輸入時,你實際上是在訓練它根據前面的 token 預測下一個 token。好的,因為這個架構。嗯,所以這被稱為 GPT 架構。嗯,不一定需要是 transformers。實際上是什麼並不重要。這種架構的基本思想非常非常古老。 然後一旦你訓練了一個系統來做這個,你就可以用它來進行自迴歸(auto-regressive)預測,也就是你給它看一個詞或 token 的序列,然後要求它預測下一個。然後你將這個預測結果移到輸入端。好的,所以現在系統看到了你給它的詞,還有它剛剛產生的詞。 嗯,現在你可以產生第二個詞,將它移到輸入端,產生第三個,將它移到輸入端,等等。這被稱為自迴歸預測。這是統計學和訊號處理中一個非常古老的概念。呃,真的不新,還有濾波。嗯,但不同的當然是模型的規模。 我們可以訓練它們,事實上我們可以基於大量的數據訓練它們,因為我們現在有了互聯網。嗯,以及當你這樣做時似乎會出現某些特性,僅僅是預測下一個 token,結果發現系統必須在某種程度上真正理解底層的含義。 而且它能夠儲存大量的資訊,並適當地重新輸出。好的,所以這個非常簡單的概念,如果你把它擴大規模,會有多麼強大,這是令人驚訝的。呃,但這創造了一種規模化的宗教,認為你只需要擴大系統規模,它們就會自然而然地變得更聰明。我不認為這是真的。 事實上,我相當確定那不是真的。我的意思是,如果你擴大它們的規模,它們確實會變得更聰明,但達不到我們想要的水平。嗯,事實上,這種自迴歸預測的想法有一個主要問題,那就是每次系統預測一個 token 時,都有一定的概率那個 token 會讓你偏離能構成對你所提問題的良好答案的序列子樹。 嗯,如果你假設(這是一個很大的假設,可能不成立)錯誤的概率… 我的意思是錯誤是獨立的,好的,當系統產生更多 token 時… 那麼不可避免地,系統能夠保持在良好答案子樹內的概率會隨著你增加 token 的數量而指數級下降。 所以這需要很多假設,但這是自迴歸預測的一個基本缺陷。基本上,你知道,如果有人要求你說話時不去想接下來要說什麼,那麼你能保持多麼連貫是有限度的。 嗯,這差不多是同樣的故事。嗯,這些事情已經在各種論文中或多或少地被研究過了。呃,經驗上地。好的。所以,我們錯過了一些重要的東西。你知道,一些其他的證據表明我們錯過了一些非常重要的東西,那就是我們有 LLM,例如,可以通過律師資格考試,或者解決複雜的方程或積分,或者呃,建議度假計劃之類的事情。 嗯,但首先,這主要是重新輸出。所以,你不會有一個 LLM 去發明它從未接觸過的問題的新解決方案,而人類有能力做到這一點,甚至很多動物也能做到。而且我們當然沒有基於 LLM 的 AI 系統能夠理解物理世界。 現在有能夠解釋圖像,在某種程度上解釋影片的系統,但圖像和影片的編碼,如果你願意的話,可以看作是一個獨立訓練的管道。我們知道如何做計算機視覺系統,然後我們基本上把它們轉換成 token。我們把圖像轉換成 token,好的?然後像處理其他東西一樣處理它們。嗯,但這樣做的問題在於,這並不能產生真正很好地理解物理世界的系統。 所以我們沒有家用機器人,對吧?我們甚至沒有在規劃能力和對物理世界的理解方面接近,比如說,一隻家貓的機器人。嗯,我們當然沒有像任何青少年只需幾個小時練習就能學會開車那樣的自動駕駛汽車。 好的,我們投入了巨大的工程努力來建造自動駕駛汽車,我們有,你知道,數百萬小時的由專家駕駛汽車的訓練數據。而我們仍然沒有完全可靠的自動駕駛汽車,除非我們作弊,除非我們使用光學雷達(LIDAR)和整個環境的詳細地圖,這就是像 Waymo 這樣的公司正在做的事情。 所以,你知道,顯然我們錯過了一些重要的東西,問題是什麼?這就是 AI 中一個古老問題的另一個例子,叫做莫拉維克悖論(Moravec's paradox),那就是為什麼我們有計算機,它們可以完成對人類來說很困難的任務,比如下棋或圍棋或撲克達到超人水平,但對於像操縱物體或規劃簡單動作這樣我們甚至不認為是智慧任務的簡單事情,我們卻遠遠達不到生物的能力?
向嬰兒與動物學習
所以我們在那裡錯過了一些非常重要的東西。問題在於語言和物理世界之間存在根本的差異。語言在某種程度上是簡單的。這有點令人震驚,因為我們認為語言是人類能力的縮影,但事實上語言相對簡單。 嗯,有這樣一個計算,陳教授剛才提到的,當然數字在不斷變化,因為系統現在正在用更多的數據進行訓練,但如果你拿一個像 Lama 4 或其他一些更新的模型,它們通常在約 30 兆個 token 上訓練,這基本上是互聯網上所有公開可用的文本。呃,一個 token 是三個位元組。 所以這通常大約是 10 的 14 次方位元組。好的,我們任何一個人讀完這些材料需要 40 萬到 50 萬年之間的時間。嗯,所以在一個生命週期內是不可能的。好的。然後將此與幾年內到達視覺皮層的資訊量進行比較。 一個年幼的孩子,一個四歲的孩子,總共清醒了 16,000 小時,而到達我們視覺皮層或透過觸覺到達我們感覺皮層的資訊量大約是每秒 2 百萬位元組。我們有兩百萬條視神經纖維從眼睛通向大腦。 每條大約攜帶每秒一個位元組。嗯,然後你做算術,你得到大約 10 的 14 次方位元組。所以在一個孩子四年的時間裡,到達視覺皮層的資訊量大約與今天最大的 LLM 消化掉的資訊量相同。所以這告訴你一些事情。 它告訴你,我們永遠無法通過在文本上訓練 LLM 來達到人類水平的 AI。這永遠不會發生。嗯,我們必須能夠從高帶寬的感官輸入(如影片或其他模態)訓練系統。嗯,壞消息是,我們目前使用的對文本效果很好的架構,對影片不起作用。 嗯,所以也許我們可以從年幼的孩子如何學習中得到一些啟發。當我說年幼的孩子時,不僅僅是人類的孩子,也包括動物。動物在生命的最初幾個小時、幾天、幾週、幾個月裡,經歷了類似的學習世界如何運作的過程。嗯,人類嬰兒需要幾個月的時間來學習關於世界非常基本的事情,比如,嗯,基本上世界是三維的。 嗯,世界上有可以獨立移動的物體,如果你因為一個物體被另一個物體擋住而看不到它,它仍然存在。這叫做物體恆存性(object permanence)。這不是我們與生俱來的。我們可能在頭兩個月學會這個。 在人類身上很難實際測量。你可以在動物身上測量。測量牠們是否真的知道物體恆存性要容易一些,這取決於物種。嗯,但還有一些事情,比如即使還不會說話的孩子,也知道一些基本的物體類別,比如狗和貓也會這樣做。 牠們自發地知道某些物體類別。牠們不需要給它們命名。嗯,然後,學習關於直覺物理學的基本概念,比如沒有支撐的物體會因為重力而掉落,這在人類身上需要九個月。在大多數動物物種中要快得多,但在人類身上需要九個月。 所以你展示底部這裡的場景,一輛小汽車停在一個平台上,然後你把那輛小汽車推下平台,它看起來漂浮在空中。一個六個月大的嬰兒不會感到驚訝。呃,一個十個月大的嬰兒會非常驚訝,因為一個十個月大的嬰兒已經學會了物體應該掉落。 所以那個十個月大的可能會看起來像那個小女孩。這實際上是心理學家測量一個嬰兒是否學會了世界的某個特定屬性的方法,就是通過測量驚訝的程度,也就是孩子盯著那個情況看多久。嗯,那麼我們如何讓機器像嬰兒一樣學習呢?嗯,事實上,這或許提出了一份未來 AI 系統的期望清單。
未來 AI 系統的期望特性
你知道,它們應該具備什麼能力?嗯,它們應該真正地像我們一樣,透過觀察,可能也透過互動,顯然地,來學習世界的心理模型(mental models)。嗯,學習直覺物理學和類似的東西,比如,我們如何預測世界將會發生什麼?嗯,我們如何學習能夠讓我們做到這一點的心理模型?嗯,擁有持久記憶的系統,能夠規劃複雜行動序列以達成特定目標的系統,以及 能夠推理的系統,而推理和規劃實際上是同一回事。嗯,基本上能夠為未見過的問題發明新的解決方案,而無需經過訓練來解決它們。所以我們稱之為像零樣本(zero-shot)。呃,我們有能力做到這一點。很多動物也有能力做到這一點,處理它們沒有被訓練過處理的新情況,並使用它們的推理和規劃能力以及它們的心理道德模型。 嗯,我們今天沒有能夠做到這一點的 AI 系統。嗯,最後,透過設計就是可控和安全的系統。嗯,基本上它們能做的只是完成我們給它們的目標,而不是任何其他事情。同樣地,這不是今天 LMS 的情況。呃,所以我將會介紹一些我認為 AI 系統如果想要滿足這些條件應該具備的特性。
推論方式:從固定計算到優化
呃,所以第一件事是它們應該能夠進行什麼類型的推論(inference)?所以推論是系統計算輸出的過程,對吧?它不是學習過程,我們假設系統已經訓練好了,它是如何計算它想要產生的輸出?好的,這是一種模型,由神經網路普及開來,但也有其他的,系統計算輸出的方式是,你知道,你給它一個輸入,然後訊號通過一些神經網路的若干層傳播,然後它產生一個輸出,這就是答案。 好的,LLM 就是這樣工作的。你輸入一個提示(prompt),然後通過你的 transformer 的一堆層運行,它將會產生一個 token。計算單個 token 所需的計算量是固定的。好的?這有點限制了正在發生的計算類型的複雜性。 每個 token 有固定的計算量。嗯,當然在 LLM 中你可以稍微調節一下,基本上是誘使 LLM 產生更多的 token。所以系統為一個複雜的問題投入更多的計算。這叫做思維鏈(Chain of Thought)。但這有點像是一個 hack(取巧的方法),並不是真正意義上處理推理的方式。 一個更好的執行推論的方式是透過優化(optimization)。好的。好的,所以現在你的模型不再是你傳播訊號通過的神經網路。它是一個複雜的機器。它可能涉及神經網路和多層系統,但它真正做的是計算一個純量值(scalar value),一個單一的數字作為輸出。 這個數字衡量了輸入和一個建議的輸出在多大程度上是相容或不相容的。好的。所以,假設你展示一張大象的圖片,而建議的輸出是代表大象的標籤,系統會產生一個低的輸出,比如說零,而如果,如果你建議的類別是其他的,比如,我不知道,桌子,系統會給你一個大的數字。好的,這叫做能量基礎模型(Energy-Based Model)。 所以基本上是一個測量輸入和建議輸出之間不相容程度的系統。所以推論過程現在包括在輸出空間中搜索一個能夠最小化該能量的輸出。好的,這是一個內在更強大的推論過程,呃,因為任何計算問題都可以簡化為這種優化問題。 但並非每個計算問題都能簡化為通過神經網路中固定數量的層進行傳播。好的,所以它內在更強大。所以這是 AI 系統需要透過優化來實現影響力的事情。嗯,事實上,這根本不是一個新概念。我提到了 Newell 和 Simon,而且像傳統 AI 完全是關於在解決方案空間中搜索解決方案。 圖模型(graphical models)中的概率推斷完全是關於優化。它是搜索一組你不知道其值的變數的值,使其根據某個似然函數(likelihood function)與一組你確實知道的變數最相容。好的,你可以將其視為一個能量,負能量。 嗯,有,你知道,很多,很多計算機科學中的問題,比如機器人的運動規劃,都是基於這樣的想法,即你搜索一個控制序列,使機器人完成你想要的任務,抓住一個物體或其他什麼。嗯,所以這是一個非常普遍的概念,但在現代 AI 的背景下,我們有點忘記了這一點。
系統一與系統二:直覺與深思
嗯,所以這種,你知道,刻意地,有點像搜索答案的方式,在人類認知的背景下,被稱為系統二(System 2)。所以我們有兩種,呃,有點像行動的方式,人類行為可以被視為,有點像這兩種模式,如果你願意的話。有一種模式是你完成一個你非常熟悉的任務。 你不必考慮它。它有點像潛意識的,你可以在沒有意識到的情況下完成它。好的。嗯,所以如果你是一個有經驗的司機,你可以不用真正思考就開車。你可以同時做其他事情。你可以和別人交談,你可以聽收音機或其他什麼。 嗯,它已經變成自動的了。好的。但是你開車的最初幾個小時,你完全專注於情況,基本上用盡你所有的腦力來弄清楚該做什麼。這在我們每天處於的大多數情況下確實如此。大多數,我們這裡許多人從事或計劃從事的職業,如果你是學生的話,嗯,你知道,需要我們的意識和時刻的審慎推理。 所以這被稱為系統二。它更慢。它需要更多的能量,精神能量,但也包括實際能量。嗯,但它更強大。我們可以解決新的問題,為我們從未遇到過的事情找到新的解決方案。目前 LLM 無法做到這一點,或者它們只能以非常非常有限的方式做到。
能量基礎模型 (EBM) 與世界模型架構
嗯,所以,嗯,這提出了一種框架來解釋這些系統如何工作,叫做能量基礎模型。如果你想模擬兩個變數之間的依賴關係,比如說 X 和 Y,在這個小圖中它們是純量,但它們可以是你想要的任何複雜程度。它可以是離散的或連續的。所以 X 是一個觀察值。Y 可能是一個建議輸出的空間。而兩個變數之間的依賴關係可以用一個能量函數來表示,當 X 和 Y 的配對相容時,該函數取低值,而當 X 和 Y 的配對不相容時,取較大值。這比表示一個從 X 計算 Y 的函數更強大。 你可以將其視為捕捉 X 和 Y 之間依賴關係的隱函數(implicit function)。但這樣做的好處是,你可能有多個 Y 與單個 X 相容,原因相同,你可以有多個行動來完成一個特定的任務。好的。嗯,如果你有一個只計算單個行動的系統,它的能力遠不如一個能告訴你某個建議的行動是否與,你知道,將完成你想要的任務相容的系統,因為你可能有多種 解決該任務的方式,多個與輸入相容的答案。嗯,所以想想,你知道,這裡的黑點代表訓練數據,然後不同顏色的線代表能量函數的不同等值線(level sets)。好的。 那麼,我們將如何在一個智慧系統的背景下使用這個測量輸入和輸出之間相容性的能量函數呢?它將必須是一個也許是這種架構,圍繞著世界模型(world model)的概念構建。什麼是世界模型?世界模型是這樣一種東西,給定世界的當前狀態,也許還給定一個你想像要採取的建議行動,世界模型會預測世界接下來的狀態會是什麼。 好的。對吧。所以給定世界的狀態和你想像要採取的一個行動,你能預測世界的下一個狀態嗎?所以如果我拿起這個物體,我告訴你我要張開我的手,你可以輕易地預測這個物體會掉下來。而這種心理預測,以行動為條件的心理能力,正是讓我們能夠規劃的原因。 這也是讓我們能夠推理的原因。好的?因為我們可以想像採取一系列行動的結果,這意味著現在我們可以透過搜索,找出達成特定結果的一系列行動。好的,這就是我們規劃的方式。呃,事實上,這個概念在機器人和最優控制的背景下非常古老,可以追溯到 1960 年代。 你擁有一個你想要控制的系統的模型,透過優化,你可以找出一個命令序列,使系統達到一個特定的目標。這就是世界各地的太空機構計算火箭軌跡以與太空站會合或進入軌道的方式。 這是一套非常古老的技術。嗯,但通常模型是由工程師和科學家手工建立的。這裡我們談論的是從觀察中,也許還有互動中,學習一個模型。好的。所以我們這裡有幾個組成部分。我們有,呃,你知道,我們觀察當前情況。它進入一個感知模組(perception module),該模組基本上估計,嗯,世界當前狀態的一個表示(representation)。 它不會表示世界當前狀況的所有細節,但會表示那些,你知道,可能與任何任務相關的相關細節。嗯,我們可能無法感知到世界當前的完整狀態。所以我們需要將此與記憶體的內容結合起來,記憶體基本上包含了我們對當前未感知到的世界狀態的想法。好的。 所以我們都知道如何離開這棟建築,因為我們是從門進來的。所以我們的記憶中某處有門的位置,以及我們必須如何走出這個房間才能到達門。嗯,你知道,那儲存在我們的記憶中,然後我們所知道的關於世界的其他一切都在我們的記憶中。 所以我們將這個記憶的內容與當前的感知結合起來,我們將其輸入到我們的世界模型中,然後我們將一個我們可能採取的行動的假設輸入到世界模型中,世界模型所做的就是預測接下來會發生什麼。世界的下一個狀態會是什麼?現在我們可以做的是,將那個預測的狀態輸入到一系列目標函數(objective functions)中,由紅色方塊或矩形表示,而這些是產生能量,一個純量輸出的隱函數,並且有一個 隱含的想法是各個項是相加的。好的,所以總能量是所有這些紅色矩形輸出的總和。其中之一,任務目標(task objective),衡量任務在多大程度上已完成。好的。所以如果任務完成了,它的值是零,比如說,如果任務沒有完成,則值更大。 嗯,然後可能有一組護欄目標(guardrail objectives)。所以這些護欄可以是成本函數(cost functions),也可以是約束(constraints)。所以現在問題變成了一個約束優化問題,保證,你知道,系統將引起的任何世界狀態序列都不會傷害任何人,例如,你知道,是安全的,會在某些限制之內。 好的。所以現在系統在任何類型的事件(episode)中所做的是,呃,它透過優化進行搜索。它搜索一個行動序列,根據其世界模型的預測來優化這些目標或滿足約束。好的,這就是它的運作方式。所以透過優化進行推論,這是一種進行規劃和推理的方式。 而這個架構是建立一個智慧系統的方式,如果我們弄清楚如何做的話。嗯,現在一個世界模型通常是適用的。好的。嗯,我想在這之前說點什麼,這個想法,即你能夠以某種方式預測干預(intervention)的結果,對於科學過程也是至關重要的。好的。 當我們在科學中建立一個模型時,我們對世界的狀態有一些抽象的表示,比如一個物理系統的相關變數。然後我們擁有的模型可能是一組方程式,但它可能比那更複雜。然後我們想像一個實驗,這基本上是我們對系統進行的一個行動或擾動干預。 然後我們的模型據推測能夠預測結果,也許透過優化,我們可以設計一個能產生特定結果的干預。好的。所以這真的非常像我們在科學中所做的事情。這不僅僅是一個 AI 問題。它有點像一個我們如何思考的模型,你知道,以及我們如何提出關於世界的新想法。 在這一點上是一個非常概念化的模型。嗯,我們可以用這種實驗來驗證一個假設是否為真。嗯,現在如果我們有一個世界模型,能夠在給定一個行動的情況下預測世界的下一個狀態,我們可以隨時間重複使用它,你知道,想像不僅僅是單個行動的結果,也許是一整個行動序列的結果,透過,你知道,遞迴地、自迴歸地應用它,應用世界模型。好的。 嗯,所以我們可以運行一個世界模型多個步驟,呃,你知道,將其輸入到護欄成本中,然後以某種方式想出一些優化演算法,來找出優化我們行動的行動序列,因為所有這些模組大概都是神經網路。 它們將是可微分的,我們可以使用基於梯度的方法,也許,來進行規劃,但也許我們可能需要使用更複雜的方法。現在,我們,呃,實際上世界並不是完全確定性的。所以實際上規劃一個行動序列可能會很困難,當世界存在很多未知數時。 處理未知數的方式是,呃,你,你可以製作一個神經網路,它是一個確定性函數。你可以通過給它一個額外的輸入變數,你從一個分佈中抽取的變數,把它變成一個非確定性函數。這叫做潛在變數(latent variable)。好的。與寫出 P(Y|X) 相比,這是一種表達概率預測的更好方式。 你計算的實際上是一個確定性函數。呃,但因為它有一個潛在變數作為參數,它現在變成了隨機的。嗯,當然,這些潛在變數可以在多個集合上變化,所以在存在不確定性的情況下進行規劃的問題可能會有點複雜,但基本機制與我之前描述的並沒有真正的不同。 現在,如果我們真的想建立一個真正智慧的系統,我們必須讓它能夠像大多數動物,當然也像人類一樣,進行規劃,也就是分層規劃(hierarchical planning)。所以如果我計劃,比如說,我坐在紐約大學我的辦公室裡,我想,我想去巴黎,好的,現在是白天。 我知道我可以在第二天早上到達巴黎,但我需要做的是先去機場趕飛機。在晚上航班起飛前去機場趕飛機。好的。所以,我無法用基本動作來規劃我的整個巴黎之行,對於人類來說,基本動作基本上是毫秒級的肌肉控制。 好的,我做不到這一點,因為我沒有這些資訊。而且這也會是一個極其複雜的規劃問題。好的,所以我們不是在單一層次上進行規劃。我們是分層規劃。我們有一個目標,去巴黎。這就像一個目標。好的,我們將它分解為子目標。第一個子目標是到達機場。現在我有一個子目標。 我如何到達機場?好的,我可以在表示的層次結構中下降一層。嗯,然後為第一部分添加更多細節。嗯,我需要下到街上叫一輛計程車。在紐約你可以這樣做。好的。現在,我有另一個子目標,去街上。 嗯,我必須去電梯,按下按鈕,乘電梯下去,走出大樓。我如何到達電梯?我必須從椅子上站起來,拿起我的包,打開我的門,在我身後關上它,走路時避開所有障礙物,這些我可能無法提前規劃,因為我不知道所有的障礙物會在哪裡。 會有人跑來跑去。好的。所以,我如何從椅子上站起來?現在,你達到了一個用語言描述基本上不可能的層次。我們無法下降到某個層次以下並用語言描述事物。語言變得完全不合適,不足以描述某個抽象層次以下的事物。 所以,這告訴你,我們不會用 LMS 來做這個。我們將必須擁有能夠理解物理世界,也能夠規劃低層次行動,並且分層進行的系統。這個分層規劃的問題完全沒有解決。好的,我相信這是 AI 的一個重大挑戰。 很少有人用機器學習類型的方法來研究它。如果你正在開始攻讀博士學位,或者即將開始攻讀博士學位,或者是一位新教員,想知道我應該研究什麼才能在 AI 領域產生影響,解決這個問題,好的,如果你對此有一些好主意,我會在一分鐘內聘用你,而 Pascal Fua,就坐在這裡,她也會在一分鐘內聘用你,她有同樣的問題,我們都在 FAIR 工作,她在巴黎,我在紐約,嗯,所以這是一個主要的主要問題。 所以我三年前寫了一篇論文,我把它放到了網上。我的意思是,這是我多年來一直研究的許多想法的提煉,關於我認為 AI 研究在未來十年會走向何方。嗯,那篇論文已經三年了,這意味著它是在 LLM 熱潮之前發表的。 它沒有改變。好的。LLM 並沒有真正改變這篇論文的基本前提。嗯,標題是「通往自主機器智慧之路」(A Path Towards Autonomous Machine Intelligence)。它不在 arXiv 上。它在 OpenReview 上,所以你可以對它發表評論。嗯,我們現在改了名字。我把「自主」(autonomous)這個詞改成了「高級」(advanced),因為「自主」會嚇到人。 嗯,所以我們在 FAIR 有這個項目,還有在紐約大學我的實驗室,我們稱之為「高級機器智慧」(Advanced Machine Intelligence,AMI)。好的。我們實際上發音為 ami,在法語中是朋友的意思,這是我們用來代替 AGI 的詞。大多數其他人會稱之為 AGI。好的,我不喜歡這個術語,因為 AGI 的概念是機器具有與人類相同水平的智慧。 但人類智慧實際上是非常專業化的,所以稱之為通用智慧(General Intelligence)完全是胡說八道。嗯,所以 ami,我嗎?嗯,關於這個,我過去幾年做過各種演講。你會看到最新的,裡面有一些我還沒談到的新結果。嗯,好的。
如何學習世界模型:自我監督學習
所以在這篇論文中,我描述了一種通用架構,類似於我剛才描述的那個,但是也包含更多組件和更多關於如何構建它的細節。嗯,它被稱為認知架構(cognitive architecture),呃,你知道,圍繞著世界模型的這個想法,而世界模型的這個想法現在確實正在 AI 研究社群中獲得很多關注,至少是來自那些不相信你僅僅透過擴展 LMS 就能達到人類水平 AI 的人。 嗯,好的,但我們現在必須問自己的大問題是,機器如何能夠從觀察中學習世界模型,或者從,你知道,設計出能夠讓世界模型湧現出來的架構,而對於科學家或物理學家來說,嗯,這有點像一個類比,科學家如何為他們觀察到的現象闡述模型,而這個概念就是自我監督學習(self-supervised learning)。 所以自我監督學習是,呃,訓練一個系統來捕捉輸入之間依賴關係的通用框架。你給它一個輸入,這不像是一個單一的輸入,而可能是一個序列,或者可能是一個輸入的多個部分,你基本上訓練系統告訴你,嗯,那組輸入是否是一致的、連貫的,或者它的某些部分是否真的與其餘部分不相容。 而 LLM 是這種情況的一個特例,一個,一個,呃,如果你願意的話,對我之前描述的訓練 LLM 過程的更普遍看法,也許是這樣一種情況:你拿,比如說,一個詞或 token 的序列,並以某種方式損壞它,例如刪除一些詞,或改變它們,然後你訓練一個大型神經網路來恢復缺失的部分,缺失的詞。好的。 這效果非常好。嗯,所以 LLM 是基於這個原則,正如我所說,它們使用這種因果架構,基本上不需要進行顯式的遮蔽(masking),但這在架構中是一種隱式的遮蔽,本質上是系統無法訪問現在和未來。它只能使用過去來預測現在。 嗯,當然,有一個非常古老的想法來自神經科學,來自很多年前,實際上是幾十年前,如果你能訓練一個系統來預測影片中將要發生的事情,這個系統將會理解現實的結構,對吧?如果你能預測影片中將要發生的事情,特別是從長遠來看,那意味著你真的捕捉到了現實的本質。 那麼為什麼我們不對影片做同樣的事情呢?拿一段影片,把它轉換成 token 或其他什麼,對吧?然後訓練一個大型神經網路以某種形式預測影片接下來會發生什麼。我研究這個問題已經 15 到 20 年了。呃,我在 FAIR 的一些同事在過去 10 年裡一直在研究這個。 它行不通。它行不通,因為預測影片中發生的所有細節太難了。基本上是不可能的。嗯,這裡有一些例子。所以,如果你在非常短的影片上訓練一個神經網路,只有六幀,你給它四幀,然後要求它預測接下來的兩幀,你會得到頂部看到的那種預測。 有四幀,然後最後兩幀是預測的,它們是模糊的。為什麼它們是模糊的?因為神經網路不知道接下來會發生什麼。所以,它預測所有可能的未來的平均值。那是一張模糊的圖像。如果你把這個應用到另一個情況,比如,你知道,預測高速公路上汽車的軌跡,你會得到那些模糊的預測,你可以在下面的面板中,從左數第二列看到。所以這些就像是非常 簡單的,你知道,簡單化的,有點像示意圖的影片,你會得到那種模糊的預測,因為系統無法預測一輛汽車是否會加速、剎車、轉彎或不轉彎、變道或其他什麼。所以它預測一個平均值。所以當然,你知道,一個自然的傾向是去做,好吧,好吧,我要像處理文本一樣,我不預測單一的預測,我要做一個概率預測,預測所有可能結果的分佈。你可以用文本來做這個,因為對於文本,你永遠無法 準確預測一個序列後面的詞,但你可以產生一個關於你字典中所有可能的詞或 token 的概率分佈。好的,我們在機器學習中稱之為 softmax。嗯,但你不能對影片這樣做。我們沒有一種有用的方法來表示所有可能的影片幀空間中的分佈。 所以,人們多年來一直在努力解決這個問題,並且取得了一些進展,你知道,像 GANs,以及最近的擴散模型(diffusion models)和流模型(flow models)等等,這些有點像是試圖基本上弱表示高維連續空間中的分佈。 但仍然,這不僅僅是足夠的,它基本上是在解決一個比你需要的更複雜的問題。所以我對此的解決方案是,不要試圖預測影片中的所有細節。預測影片的抽象表示。好的。所以,嗯,讓我舉個例子。如果我拿起這個物體,用手指朝這個方向握住它,我告訴你我要鬆開我的手指。 嗯,你知道這個物體會掉下來,對吧?因為它的尖端有點圓。你無法預測它會朝哪個方向掉。你可能沒有足夠的資訊。你不知道我會如何確切地抬起我的手指。所以在一個抽象的表示層面上,你可以說這個物體會掉下來,但你無法預測每個像素,因為你不知道它會朝哪個方向掉。 讓我再舉一個例子。如果我拍攝這個房間的影片,好的,我從這裡開始,我慢慢地平移,然後停下來,然後我要求系統繼續播放那段影片。系統會弄清楚我們在一個會議室裡,有人坐著,你知道,會議室的大小可能是有限的,右邊可能看起來像左邊。 它可以預測一些關於它的資訊,但它絕對無法預測你們每個人長什麼樣。資訊根本不夠。所以如果我們訓練一個系統來在非常精細的層面上進行這種預測,它不可能成功。它會將所有的資源都用來試圖預測它根本無法預測的事情。 這完全是浪費。嗯,事實上,它導致系統學不到太多東西。嗯,我們有大量的經驗證據表明情況就是如此。當我們訓練時,例如,如果你想訓練一個系統來學習圖像的表示,你訓練它,例如,你拿一張圖像,將其損壞,然後訓練它從損壞的版本中重建圖像,你希望系統學習到的內部表示會是圖像的一個好的表示。 效果不是很好。下面是效果好的方法。效果好的方法被稱為聯合嵌入架構(joint embedding architectures),或者更精確地說,聯合嵌入預測架構(Joint Embedding Predictive Architectures,JEPA)。好的。嗯,想法如下。你拿原始的影片或輸入,不管是什麼。呃,以某種方式損壞或轉換它。例如,遮蔽未來或後半部分。
聯合嵌入預測架構 (JEPA)
好的。與其訓練一個系統來重建整個影片,不如將影片通過一個編碼器(encoder)。好的,你得到完整影片的表示,稱之為 sy,以及部分遮蔽或損壞或轉換過的影片的表示,稱之為 sx。 然後你訓練系統來預測 syx。所以你仍然訓練一個系統來進行預測,但不是在像素空間,而是在表示空間(representation space)。好的。再次強調,這是一個作為智慧生物我們一直在做的過程,找到一個合適的世界表示,使我們能夠做出預測。這也是我們在科學中一直做的事情。 科學的全部目的就是,一個系統狀態的相關變數是什麼,例如在物理學中,能夠讓我預測系統將如何演化。嗯,你知道,我可以把我們收集到的關於木星的所有資訊都丟給你。但如果我問你,你能預測 100 年後木星會在哪裡嗎?你只需要六個數字。 你需要三個位置和三個速度,就完成了。你不需要知道木星有多大。只要它相對於太陽足夠小。呃,你不需要知道它有多少顆衛星,溫度是多少,密度是多少,這些都不需要。嗯,所以這種學習表示以進行預測的想法,我認為對於科學來說是基礎性的,但我也認為對於 AI 來說是基礎性的,我們不會通過生成模型(generative models)來實現這一點。 所以你在左邊看到的是一個試圖預測輸入的生成模型,而你在右邊看到的是這些聯合嵌入,嗯,聯合嵌入預測架構 JEPA 之一,它不試圖在輸入層級進行預測,而是試圖學習一個可以在其中進行預測的抽象表示。 我認為這有根本的不同。我認為研究這個非常重要,當你試圖訓練這種架構時會出現特定的問題。訓練一個生成式架構要容易得多,但讓它對影片起作用是不可能的。好的,所以我們必須放棄生成式 AI。 好的,當我對我在 Meta 內部稱為 GenAI 的組織的同事們說這話時,聽起來很令人震驚。他們對我並不是特別高興。好的。在更廣泛的社群中,今天完全沉迷於生成式 AI,當我說幾年內我們將不得不放棄生成式 AI 的整個想法時,呃,他們認為我瘋了,但我習慣了,所以,嗯,以前也發生過,嗯,好的,所以這是一個重要的建議,嗯,再次強調,這就是模型如何在物理學或 更普遍的科學中建立起來的,以及為什麼我們在嘗試進行預測時需要提升抽象層級,因為這是我們理解世界的方式,嗯,有句愛因斯坦的名言是「關於世界最不可思議的事情是世界是可被理解的」,對吧?我的意思是,世界中怎麼會有結構,讓我們能夠生存和理解世界?我們能做到這一點的原因是因為我們可以建立這些抽象層級。好的。原則上,我們可以 用量子場論(quantum field theory)來模擬這個房間裡目前正在發生的一切,對吧?我們可以透過量子場論或任何當前關於物理學的理論推導出物理系統中發生的一切。但當然這會完全不切實際。 所以我們發明了,你知道,多個抽象層級,讓我們能夠在不同層級上進行預測,你知道,從量子場到粒子、原子和分子、材料、物體、機器,在生物世界中是蛋白質、器官、細胞、有機體、個體、社會,對吧?我們從不描述,比如,尋找一個合適的表示層級是非常重要的,在一個層級上好的表示是一個非常重要的問題。 這完全是關於學習表示。我 12 年前創辦的會議,本週正在新加坡舉行,今天結束,名為「國際學習表示會議」(International Conference on Learning Representations,ICLR)。我認為這確實是 AI 中關鍵的核心問題,而且長期以來一直如此,這就是深度學習的全部目的。 嗯,所以,就是這樣。嗯,這些是聯合嵌入架構的不同風格,但讓我稍微加速一下。所以我們需要做的是訓練這些架構,我們必須解決的主要問題是防止它們崩潰(collapsing)。所以如果我們只是訓練它們最小化表示空間中的預測誤差。 也就是說,sy 和預測的 sy 之間的差異,而我們不做任何其他事情。系統會簡單地選擇忽略關於輸入的所有資訊,然後產生恆定的輸出。所以 sy 和 sx 會相等,現在預測問題變得微不足道,系統會對我們呈現的一切都給出零能量。這不是一個好的模型。 我們需要系統對我們展示的 x 和 y 配對給出零能量。但我們也需要它對我們沒有展示的東西產生更高的能量。好的,這就是事情變得複雜的地方。這就是我們需要能量基礎模型的框架的地方,我之前展示過的。 所以我們如何確保,如何確保對於我們沒有向系統展示的東西,能量實際上高於我們展示的範例?有兩類方法。一類稱為對比方法(contrastive methods),另一類稱為正則化方法(regularized methods),我稱之為正則化方法。 對比方法的基本思想是,你生成對比點,這些點是訓練集中不存在的 X 和 Y 的配對,然後你改變模型的參數,使它們的能量上升。好的?所以你降低訓練樣本,即相容的 X 和 Y 配對的能量,並提高那些對比樣本的能量。 不幸的是,這不是很具擴展性,因為如果你有一個高維表示空間,你需要的對比點數量,在極限情況下,需要隨著表示空間的維度呈指數級增長。而,呃,正則化方法的工作方式不同。它們在訓練期間最小化的成本函數中有一個項,試圖最小化可以取低能量的空間體積。 所以你知道,這可能更有效,而且如何做到這一點有點神秘,你可以將能量基礎模型轉換為參數模型,但讓我跳過這個。所以人們在過去 10 年左右做的一些實驗是,預先訓練一個你想要的系統架構,比如說用圖像,訓練它產生表示,然後測試這些表示是否是好的表示,方法是在其頂部訓練一個頭(head),使用監督學習,看看在監督任務上的性能是否好。好的,所以如果學習到的表示 是好的,那麼用一個小的頭,也許一兩層,你可能能夠在物體分類或其他一些視覺任務上獲得良好的性能,對吧?呃,所以這就是場景,你可以使用,嗯,對比方法,包括,你知道,向系統呈現你知道基本上是同一圖像的不同視圖的配對,但同時呈現你知道是不同的配對,然後將它們的表示相互推開。這個概念是很久以前 在 1993 年我的一篇論文中發明的。嗯,但不幸的是,它對高維表示不起作用。所以另一組方法被稱為蒸餾方法(distillation methods),呃,它們的工作方式是,你有兩個編碼器,這兩個編碼器共享相同的權重,但以一種有趣的方式,右邊的編碼器使用左邊編碼器權重的指數移動平均(exponential moving average,EMA),並且只有左邊的編碼器接收梯度。 梯度不會反向傳播到右邊的那個。好的,它們只是基本上得到左邊那個權重的時間平均值。這些被稱為蒸餾方法,帶有 EMA 指數移動平均,這行得通,但為什麼行得通非常神秘,嗯,它由於某些原因不會崩潰,至少在某些條件下是這樣,並且有一些關於這個的理論,這裡的其中一篇論文來自我們在加州 FAIR 的同事以及 Stanford 的 Surya Ganguli,嗯,但這 只是有點像一個受限的情況,所以從理論角度來看,這並沒有被很好地理解為什麼它有效,但它確實有效,而且我們已經使用了很多方法。所以有一種叫做 Dino 或 I-Dino 的技術,這是我們在巴黎 FAIR 的同事開發的,它是完全開源的。 你可以直接下載並使用它,它基本上是一種從圖像中提取表示特徵的完全通用的方法,你可以用它來做各種事情。所以人們用它來估計世界各地樹冠的高度,這讓我們估計植被中捕獲了多少碳,人們用它來處理醫學圖像、生物學以及各種各樣的事情。 呃,一些更新的工作。這是一篇論文,你知道,幾週前剛出現在 arXiv 上,嗯,我們在其中展示了,呃,這種 Dino 方法,它是完全自我監督的,實際上可以產生在絕對意義上比人們迄今為止產生的任何監督學習方法都要好的表示。好的,例如 Clip 風格。 這非常重要,因為直到現在情況並非如此。人們相信監督學習總是會擊敗自我監督學習。現在情況不再如此。嗯,好的。嗯,這裡有一個如何使用它的例子。所以,這是一個我之前描述過的那種類型的世界模型,用於規劃,例如,規劃機器人的動作。 它使用了通過這個 Dino 演算法訓練的表示,我沒有深入講解它是如何完成的細節,但是,嗯,但它是完全自我監督的,完全沒有標籤數據。嗯,所以你訓練這個世界模型的方式是,你向系統展示一個情況,比如,你知道,這個帶有一堆藍色小籌碼的機器人手臂在盤子上或其他類似的東西上。 嗯,你讓這個機器人完成一個非常簡單的動作,比如,你知道,在桌子上移動,平移 delta x,delta y,然後抬起,然後你觀察結果,你訓練一個神經網路來根據初始狀態的表示和你採取的行動來預測結果的表示。 一旦你有了這個系統,你就可以隨時間推演它。好的。所以觀察世界的當前狀況,將其通過 Dino 表示提取器運行,然後想像一個行動序列。透過運行世界模型多個時間步來想像採取這些行動的結果,嗯,並將其插入一個距離度量。 這個距離度量的是目標狀態和預測狀態之間的距離。好的。現在推論過程包括透過優化搜索一個行動序列,在推論時最小化該距離。好的。各種各樣的人都在談論測試時計算(test time computation)。這是測試時計算,但它是推論,對吧?透過優化,嗯,在一個抽象的行動表示空間中,實際上,嗯,如果你這樣做,它實際上是有效的,你可以訓練一個解碼器來有點像表示系統認為它的 預測會是什麼樣子。呃,我時間不多了,所以我不會解釋這個特定的圖表,但我會給你看一段影片。我不會用諸如這比人們過去提出的替代方法(如 dreamer 等)好多少之類的細節來煩擾你。 嗯,所以讓我展示實際的最終影片。好的,所以你從這個初始狀態開始,這裡是一組目標狀態,然後使用規劃,使用這個模型,在底部你看到的是系統已經規劃好的行動序列,以達到一個盡可能接近頂部目標的配置。好的。 這裡採取的行動序列大約是 25 個。它似乎是有效的。嗯,那些藍色籌碼的動力學非常非常複雜,因為它們相互作用,相互推擠,就像如果你要用經典的最優控制方法來做這個,基本上是不可能的。 所以,嗯,我們把這個應用到了一些不同的情況。所以這個效果非常好。它是開源的。呃,有一個帶有演示的網站。嗯,還有一個更新的工作,嗯,這是實際上更早的工作,我們使用了這種 JPEA 類型的架構,但用了稍微不同的方式來訓練它。 它被稱為 I-JEPA 和 V-JEPA,它包括訓練一個系統來表示圖像或影片,使用這種 Japa 架構,使用遮罩。所以拿一張圖像或一段影片,部分遮蔽它,然後訓練一個編碼器來表示這張圖像或這段影片,這樣你就可以從損壞或部分遮蔽的影片的表示中預測完整影片的表示。 這效果非常好。它非常高效。它學習速度快。它比人們嘗試過的所有生成式方法效果更好。所以這裡的方形黑點是一種透過重建進行自我監督訓練的方法。你拿一張圖像,遮蔽它的某些部分,然後訓練一個大型神經網路,本質上是一個自編碼器(autoencoder),來重建完整的圖像。 嗯,你在這裡看到的是,你知道,你花了多少小時來訓練系統,y 軸是物體分類的性能,你在表示之上訓練一個頭來分類物體,你看到的是藍色曲線,也就是這種 apa 方法,比透過重建工作的遮罩自編碼器(masked autoencoder)技術更快地獲得更好的性能。 所以,我們將能夠通過重建,即通過生成模型,訓練系統來學習世界表示的想法,可能是錯誤的。好的,你最好使用聯合發射架構。在圖像和影片的背景下,我們有大量證據表明,不重建比重建效果好得多。 所以再次強調,忘掉生成模型。我的意思是,除非你想生成文本,除非你想生成影片,但如果你對真正理解內容感興趣,不要生成,或者在表示空間中生成。所以這個,你知道,類似的影片實驗,呃,我們給系統一段 16 幀的短影片,訓練它重建部分遮蔽的影片,嗯,同樣你可以測試,你知道,表示是否可以用於分類動作或預測動作或類似的事情,甚至為機器人規劃動作。我這裡沒有 這方面的例子,我也不會用細節來煩擾你,但它效果非常好,然後你可以訓練一個單獨的解碼器,看看,你知道,系統大概想像在影片被遮蔽的部分會發生什麼,非常令人驚訝的是,現在你可以在心理學家測試嬰兒能力的相同情況下使用該系統。 所以你給它看一段影片,裡面發生了一些不可能的事情,比如,你知道,一個球被扔到空中,球遵循一個軌跡,然後消失了。好的?或者球遵循一個軌跡,然後變成了一個立方體,或者球消失在屏幕後面,然後屏幕降下來,球不在那裡了。 好的?所以一些物理上不可能的事情。所以你把這些影片展示給系統,你測量它在表示空間中的預測誤差。每一次,呃,系統對於任何發生不可能事件的情況都會有很高的預測誤差。所以這些系統基本上透過僅僅在自然影片上進行訓練,就學會了一點關於現實世界中什麼是可能的,什麼是不可能的常識。 嗯,這真的是第一次發生這種情況,我認為這非常酷。嗯,再次強調,關於這個有很多結果。我鼓勵你們閱讀這篇論文。嗯,現在我們正在尋找更好的方法來訓練那些基於某種資訊度量最大化的 JAR 架構,我真的沒有時間解釋這究竟是如何工作的,但你基本上訓練這個系統。 呃,所以它是那些非對比和非蒸餾方法之一,試圖對編碼器輸出的資訊進行某種估計,並試圖最大化編碼器輸出的資訊,嗯,例如使用某種協方差度量,這,這行得通。所以這裡有一種特定的技術,它行得通,而且理論上也沒有得到很好的證明,因為我們想要最大化資訊內容,這意味著我們需要一個我們推高的資訊內容下界, 不幸的是,我們沒有資訊內容的下界。我們只有上界,所以我們最大化一個上界,然後祈禱實際的資訊內容會跟隨,但實際上我們不能確定,它只是碰巧有效。所以,有,嗯,所以這些方法是基於基本上確保從編碼器出來的單個變數不會崩潰。 它們不會像具有零方差,但我們將方差水平維持在某個閾值之上。然後我們還確保它們是不相關的。好的。所以基本上確保如果你有一堆你向系統展示的樣本,比如在一批樣本上,你想要的是那個表示矩陣的列盡可能正交,並且盡可能接近範數為一。好的。 然後是對比方法。對比方法做同樣的事情,但是針對那個矩陣的行。它們試圖讓每個樣本都有不同的表示。好的。好的,所以這兩種方法之間存在一種對偶性(duality),我不會深入探討其細節。這裡有一篇描述這種對偶性的論文。 嗯,但是,呃,但是你知道,這很有趣,有一些關於這個的理論,我不會深入探討,還有各種技巧讓它高效工作,我也不會深入探討,以及一些結果,我也不會深入探討。嗯,但是我們可以用這種技術訓練世界模型,以及基本上可以用於規劃的世界模型。 呃,所以我們使用這種,呃,方差協方差損失,這個,你知道,這個協方差矩陣損失來訓練它們,我們訓練一個世界模型來進行多步預測,然後我們可以用它來規劃一個行動序列,用於簡單的情況,比如,你知道,在迷宮中規劃一條軌跡以達到一個特定的目標。 呃,這應該是一個影片。嗯,我們甚至可以將其應用於科學情境,以預測偏微分方程的性質。但我將跳過這個,因為我時間不多了,我想進入結論部分。嗯,另一個例子。所以這是來自自然影片,我們在這裡使用預訓練的編碼器訓練了一個世界模型,嗯,來預測當你移動時世界會是什麼樣子。 所以你知道,你是一個機器人,你移動機器人。你能在表示層級預測一旦機器人移動後世界會是什麼樣子嗎?如果你能預測這個,那麼你可以告訴機器人,比如去那個藍色的垃圾桶。它可能離垃圾桶很遠,但因為它可以預測當它靠近垃圾桶時世界會是什麼樣子,它可以,它可以基本上預測到達那裡的一系列行動。 嗯,這是一篇新論文。它在 arXiv 上。也有一個演示網站。呃,好的,所以基本上這裡是我提出的建議。好的。這些建議讓我在 AI 領域極受歡迎。放棄生成模型,轉而支持那些 JEA,放棄概率模型,因為現在你是在一個抽象的表示空間中進行預測,在這個空間中概率分佈沒有意義,因為它們不是基於數據的。
結論與未來方向
好的,所以你將無法對其進行概率論證。你將不得不使用這種能量基礎模型,這是一種更弱的框架形式。放棄對比方法,轉而支持那些,呃,要麼是蒸餾方法,要麼是我在演講最後部分提到的正則化方法。 當然,正如我 12 年來一直說的那樣,嗯,最小化強化學習(reinforcement learning)的使用,因為強化學習效率極低。所以,嗯,你需要有大量關於世界的背景知識,然後才能使用強化學習來微調你的行為。這是必要的,但你應該最小化它的使用,因為它需要太多的試驗。 如果我們被迫使用強化學習來訓練自己開車,那麼路上會有很多人死亡。嗯,所以結論是,如果你真的對達到人類水平的 AI 感興趣,比如進入 AI 的下一個階段,如果你在學術環境中,你應該,你不應該研究 LLM。好的。 如果你想研究 LLM,那就研究 LLM。如果你對生成文本感興趣,或者你做自然語言處理(NLP),好的,但如果你真的對 AI 的長期目標感興趣,也就是建造智慧機器,那麼 LLM 是一個干擾。它們是一個岔路(offramp)。好的?它們很有用。那裡有很多工作機會。 嗯,在那個背景下你可以做很多很酷的事情。所以我不是說你不應該,如果那是你感興趣的。但如果你對在 AI 方面取得進展,顯著的進展感興趣,忘了它吧,嗯,現在那裡有很多問題需要解決,我有點輕描淡寫了,你知道,規劃相關變數,將世界模型擴展到大規模,適用於各種模態,在不確定性下規劃,分層規劃,正如我所說,這完全沒有解決,嗯,然後 不同的聯想記憶(associative memory),我還沒有談到,嗯,以及與此相關的各種技術問題,也許如果你是數學家或類似的,可能會對你感興趣。嗯,我們未來可能能夠做到的,也許在三、五、十年內,是達到 AI 的下一個階段,能夠推理、能夠規劃、能夠理解物理世界的系統。 所有這些都是 LLM 真正無法做到的事情,這將為足夠聰明以至於有用的機器人打開大門。好的,現在業界有一個大秘密,那就是很多人正在建造機器人,人形機器人。有很多公司正在為此而成立。 沒有人知道如何讓那些機器人足夠聰明以至於有用。這是真的。技術還不存在。嗯,你可以讓它們在非常狹窄的任務中發揮作用,但那不是你想要的。最終,你希望它們像人類一樣多才多藝,沒有人知道如何做到這一點。所以基本上,這些公司中的一些指望的是 AI 在未來三到五年內取得足夠的進展,以便到他們的機器人,你知道,硬體具有商業價值時,AI 已經 取得了足夠的進展,能夠真正讓它們變得有用。但是認為這種技術已經存在,那些機器人今天就可以變得有用的想法,根本就是錯誤的。嗯,所以我一直非常堅定的另一件事是開源平台的必要性,呃,首先是讓學術界能夠為這個問題做出貢獻,因為訓練基礎模型(foundation models)非常昂貴,目前在學術界無法做到這一點。 嗯,所以開源平台對此是必要的。它們對於各種與主權、文化多樣性和語言多樣性相關的原因也是必要的。呃,但也許我們會在提問環節討論這個。非常感謝,我很抱歉超時了,但我希望我們還有一些時間進行問答。
問答環節
謝謝 LeCun 教授。現在請您和 Mohan 教授上台就座,進行問答環節。Mohan 教授,現在交給您。謝謝,Yann,感謝您這次最不敬卻又最鼓舞人心的演講。呃,請再次給予掌聲。首先,我真的想感謝您,呃,長期堅持這些不敬的想法。 你知道,卷積神經網路(CNN)與反向傳播(backpropagation)、自我監督學習以及開源,這些都部分地促成了今天 AI 的熱潮。所以非常感謝您的所有貢獻。但我有點,呃,你知道,擔心,呃,LLM 完全沒用嗎?您認為 LLM 在哪些方面最有用?我的意思是,LLM 非常有用。是的。 嗯,你知道,我相信在座的很多人都在用它們做各種事情。不,它們真的非常有用,它們應該被推動,作為一個產業,作為一個產品,你知道,嗯,它們將會,它們將會在可靠性、在它們的,你知道,處理多種語言的能力、你知道,解決各種問題等方面取得進展。 呃,對於程式碼。它對程式碼非常有用。它確實提高了人們的生產力。你不必翻閱成頁的文件來弄清楚,你知道,如何調用這個特定的 API。你只需,你知道,調用你的編碼助手,它就會給你一段程式碼。 所以,是的,不,它們是有用的,但就像過去的每一項計算機技術一樣,並不是因為它們有用,它們就是人類水平 AI 的解決方案。好的,它們只是通往人類水平 AI 的一條路徑,它們可能會成為最終系統的一個組成部分。比如,如果你想要一個或許是按照我談論的思路構建的 AI 系統,並且你希望它生成,你知道,連貫的語言和文本,你可能需要使用一個 LLM 來將該系統的抽象思想轉化為文本。所以 LLM 將會 有用。毫無疑問。它們只是通往人類水平智慧的一條路徑。好的,這說得通。現在,呃,在您演講的開頭,您描繪了一個非常樂觀的未來,將世界描繪成像許多政治領導人一樣,他們周圍有一群聰明的人幫助他們,您設想了一個樂觀的未來,我們作為人類將擁有一群聰明的 AI 代理為我們工作。 但現實是很多人對未來感到恐懼。他們認為,呃,我們將沒有工作。呃,我們將變得多餘,事實上,呃,作為教授,我們很多人,呃,你知道,被家長問到,我的孩子應該學什麼?世界上將沒有工作了。您對 AI 對勞動力市場的影響是悲觀還是樂觀?所以,嗯,所以我對未來是樂觀的,但這是基於一定程度的證據,來自,你知道,不僅僅是來自我的關於事情如何發生的模型, 也來自與經濟學家的交談。好的。所以首先我將先回答最後一個問題,那就是,呃,年輕人應該學什麼?是的。呃,我對此的建議沒有太大改變,那就是學習那些保質期長的東西,因為幾乎可以肯定的是,技術將會發展得非常快,你將不得不更換工作,你基本上需要能夠快速學習新事物,所以學習那些像基礎 方法一樣保質期長的東西。所以如果你,比如說,是一個本科生,你可以選擇,你知道,選修一門移動應用程式設計的課程,或者,我不知道,類似的東西,或者,你知道,數據庫管理或其他什麼,和量子力學,那就選量子力學,因為你將在那裡學到的基本方法很有可能是有用的,它們訓練你以特定方式思考的方式,嗯,將會很有用,而你 編寫移動應用程式的特定方式將在五年內消失。所以,嗯,所以再次強調,選擇那些保質期長的東西,你知道,深入的技術知識,因為你可能會成為一群為你工作的 AI 系統的老闆,但如果你對發生的事情有深入的技術理解,你將擁有巨大的優勢。 嗯,所以學會思考,嗯,不要學習那些保質期短的東西。好的。現在關於另一個問題,勞動力市場是否會受到衝擊?呃,它將會,它將會改變,就像每個職業都會受到影響,包括教授。是的,這毫無疑問。 但是,嗯,但是經濟學家告訴我們的是,他們告訴我們一些事情,有些經濟學家畢生致力於分析技術革命對勞動力市場的影響,對吧?這是他們的專業,比如,這就是他們發表的內容,所以像法國的 Philippe Aghion,像 Eric Brynjolfsson,他是 Philippe Aghion 以前的學生,現在在 Stanford,嗯,還有,你知道,Daron Acemoglu,他是今年諾貝爾經濟學獎得主,他們 幾乎都說,也許 Daron 稍微悲觀一點,但是,嗯,他們都說我們不會耗盡工作崗位,因為我們不會耗盡需要解決的問題。工作的性質將會改變。呃,但是一項技術滲透到經濟中的速度受到人們學習使用它的速度的限制。 所以像 Eric Brynjolfsson 說的,例如,一場技術革命對生產力的可衡量影響通常需要 15 年。這需要很長時間。我不知道你從什麼時候開始計算 AI 的時鐘,可能不是 10 年前,也許是 5 年前。所以我們在一段時間內不會看到對生產力的影響。 嗯,對生產力的預測影響並不是說我們將會有一個奇點(singularity),我們所有人都在海灘上度假,而機器人為我們工作。像 Philippe Aghion 和 Eric Brynjolfsson 這樣的人的預測是,GDP 的增長,嗯,你知道,大多數國家的 GDP 增長率約為 2%,如果你幸運的話,對吧?在發展中國家會更高,嗯,由 AI 帶來的增量增長將在 7% 左右。 現在,這實際上是很大的,因為它每年都會複利增長。好的?呃,但這並不像,這並不像我們將不得不,你知道,我們將在五年內因為 AGI 而被解雇、失業。那根本不會發生。謝謝。我認為這非常鼓舞人心。 所以,呃,我實際上有很多問題想問,但我知道觀眾中很多人想問。所以,如果您想提問,請舉手。旁邊有麥克風。呃,是的。呃,所以我們將從,從這裡開始。嗨,非常感謝。嗯,Yong Ren,我是一位前 NUS 校友。我在金融業工作。 我想知道您是否認為現有的 AI 技術以及您提出的一些新模型會有點像改變人們在世界範圍內進行交易的方式?謝謝。有可能。呃,我的意思是,一個重要的特點是,呃,你知道,顯然在金融領域,你需要做的是預測,如果你能預測,對吧,你就能,呃,你就能選擇,比如,你知道,如何投資等等,但是市場的一個主要特點是它極具隨機性(stochastic),這有點像它的本質,如果它不是隨機的, 那就意味著它會非常低效。所以,嗯,所以有大量的噪音,而那些 JEPA 系統被設計成基本上消除噪音,對吧?所以你可以想像編碼器擺脫了你無法預測的東西,所以你在一個抽象的層次上進行預測,你可以預測所有的細節,但是這些系統對噪音更具魯棒性。所以有一些希望,但我不能告訴你我們有這方面的結果。好的,我想我們會在那里接下一個問題,然後再回到 這裡。你好,教授,感謝您精彩的演講。我是 Jensen,一名在 NUS 從事機器人研究的博士生。所以我的問題是關於機器人中的模型學習(model learning)。所以,呃,在機器人學中,我們發現有時視覺感知無法為機器人執行提供足夠的回饋。 呃,力回饋、觸覺回饋也非常重要。例如,剛才您用眼鏡拍照時,您不必摘下眼鏡來找按鈕,而是,而是,您只是用指尖,從背後拿到按鈕按下去,對吧。所以,呃,您剛才提到的大多數論文,我認為它們純粹從影片中學習世界模型。 您認為我們可以僅僅從影片中為機器人學習足夠好的世界模型嗎?如果不行,您認為是否有可擴展的方法來收集機器人的多模態數據以學習世界模型,或者是否有有效的方法來整合多模態數據?所以,是的,我認為,我認為問題是,是的,毫無疑問,多模態(multimodality)是必要的,嗯,尤其是在機器人學中,我的意思是,你不能做,你知道,完全開環(open-loop)的動作,你需要,呃,你需要視覺之外的感官輸入,你需要觸覺,就像,你 知道,有人,呃,至少歷史上有一個人既是盲人又是聾子,呃,她仍然相當聰明,但她有觸覺。所以觸覺幾乎和視覺一樣具有高帶寬。我們有大量的觸覺感測器,當然它是一種主動感知模態,對吧?它不是你僅僅接收資訊的東西。嗯,但觸覺超級重要。 呃,它在機器人領域發展得還不夠。所以事實上,我們在 FAIR 有一個完整的團隊致力於,它不是一個產品,但它實際上分發給研究人員,叫做 digit 360,它本質上是一個觸覺感測器。我不知道你是否遇到過它,但是,嗯,是的,我們認為這是一件非常重要的事情。 我的意思是,我們抱有的一個希望是,這種 JEPA 方法將允許基本上將不同的模態整合到一個共同的表示空間中,在其中我們可以進行預測。所以,那,那是一個我們正在思考的大問題。順便說一句,我應該告訴你,嗯,機器人是 Meta 擴展的一個重要領域。 我們正在,嗯,擴展 AI 研究,我們稱之為具身 AI(embodied AI)。好的。嗯,我們也實際上正在建立一個產品團隊來製造機器人。這是 Meta 第一次真正地從僅僅連接人與人之間的業務多元化。好的。所以,這是一個相當,相當大的變化。好的,那令人興奮。 我們將轉到這裡的問題,然後是那裡。好的。呃,非常感謝。所以,你好 Yann。我是您的忠實粉絲。呃,我是一名,我是一名目前在 NTU 就讀的大三本科生。所以我知道您不是 LLM 的忠實粉絲,呃,但業內的許多人以及學術界的一些人,呃,說 LLM 的進步,呃,也將推動 AI 的研究。 所以有些人正在談論自動化 AI 研究代理,在某個時候,也許是 2030 年等等。呃,您認為 LM 在多大程度上會,你知道,嗯,加速 AI 的研究,以至於也許 LM 可以幫助我們自動化 LM 研究,可以幫助我們,你知道,達到您提到的人類水平 AI?所以我認為毫無疑問,在這些方面會有一些進展,你知道,那些或許基於帶有,你知道,來自其他方法的增強的系統,將在各個領域幫助科學家。嗯,但我們看到的是 大多數,呃,科學中使用的模型類型,AI 基礎模型,用於科學的模型不是 LLM。所以 AlphaFold 不是 LLM。呃,ESMFold,這是一個以前在 MIT 的團隊,也研究蛋白質結構,不是 LLM。他們使用 transformers,他們使用監督學習。 他們使用序列預測和所有這些東西,但最終它不是一個 LLM。一個專門設計用來預測蛋白質構象的系統。嗯,你知道,類似地,對於,嗯,顯微鏡學和醫學成像等許多任務。那些根本不是 LLM。它們,它們是,你知道,完全不同的方法。 如果你想要像一個自動化的,呃,科學家,我的意思是,你知道,科學是一項活動,可能是在我們可以用 AI 做的各種事情中最後實現的。嗯,所以也許建造完全自主的 AI 科學家可能有點為時過早,但是,呃,它是否會在 2030 年或什麼時候到來,我不確定,但最終我幾乎可以肯定它們不會是 LLM,它們可能會更像我描述的那樣,能夠,你知道,為 觀察到的現象闡述表示層級,然後,你知道,在那些表示層級中提出模型,你知道,正如我所說,這是人們在科學中做的非常基礎的事情,就是找到現象的良好表示,所以我認為 LLM 在那裡沒有特別重要的作用,除了,你知道,在邊緣地帶,比如幫助你寫論文,找出好的,呃,你知道,參考文獻之類的東西,這當然非常有用,但是,嗯,最終我認為那不是 模型,它讓人們意識到 AI 可能有多麼強大,所以它激勵了很多,呃,政府和行業投入大量資金,所以它以那種方式幫助了 AI 的進步。是的。謝謝。我想這裡有一個問題。是的。嗯,嗨,Yann 教授。 呃,我是來自 Alpha Intelligence Capital 的 Wingfan Lee,呃,一家您在顧問委員會上的風險投資公司。所以我的問題是,呃,從風險投資的角度來看,呃,我們正在尋找一些,嗯,有趣的公司,它們以,呃,以能量基礎模型為特色的機器人基礎模型。所以,呃,您認為這些公司的上市時間(time to market)是什麼?機器人會是,嗯,嗯,最近的用例,還是像 IT 規劃這樣的東西會,嗯,最快面對市場?這是個有趣的問題。嗯,我 首先必須告訴你,歷史上我對,呃,公司實際推出基於想法,甚至是我提出的想法的產品的能力,一直過於悲觀。所以例如,嗯,用深度學習進行人臉識別的能力,我當時並不認為是可能的,而實際上它變得可能了。 嗯,當我加入當時的 Facebook 時,我意識到,呃,有一個研究人臉識別的團隊,他們使用了卷積網路,效果驚人地好,我對它的效果感到驚訝,它在一年內就變得實用了。它實際上完全啟動了整個行業,實際上從那時起,Facebook 關閉了那個功能,因為它有太多的問題,但是,嗯,所以在其他一些例子中也是如此,我認為從研究 論文和原型到產品的技術轉移比實際情況更難。它進行得更快。所以我估計,在擁有實用的機器人系統,你知道,進行規劃等等,你知道,轉化為產品之前,大概需要五年,也許如果我們幸運的話是三年,呃,但如果我們遇到障礙,可能需要更長時間,而且那裡有很多研究問題需要解決,這些問題可能在初創公司中做得不好,需要,你知道,在研究層面,學術界,像,呃,像 FAIR 這樣的實驗室來完成。嗯,所以有很大的不確定性,但我也學到的是,在初創公司的背景下,過早比過晚要好得多。好的。我想上面有一個問題。我是 Jin Law,在華為工作,常駐加拿大阿爾伯塔省埃德蒙頓。我不知道您在哪裡。這裡。 是的。嗨。謝謝。非常感謝。是的。當您建議我們不要從事一堆事情時,您似乎對強化學習做了一個部分例外,對吧?現在我當然讀過您的《通往 AMI 之路》以及阿爾伯塔計劃(Alberta plan),好的,關於 AI 研究。現在它們給我留下了非常相似的印象,對吧?所以您能否請,呃,抱歉,您能否請快點回答問題,很多人,我無法幫助理解您的計劃,根據模型,好的,您實際上是在做基於模型的 強化學習嗎,你知道,是或不是?還有也許第二部分,很快地,你知道,我希望,你知道,您也許在某個時候能與 Richard Sutton 教授就相似性和差異性進行直接對話,我希望我們會對此持開放態度,謝謝。所以我意思是,Rich Sutton 和我已經,你知道,認識幾十年了。 他曾經是,他實際上是 90 年代末在 AT&T 的同事。呃,而且,你知道,我在 80 年代讀本科時就知道他的工作,對吧?我的意思是,我非常清楚發生了什麼,你知道,發生了什麼。他實際上有一些很好的直覺。你知道,他一直在談論這個預測的想法。 嗯,在這種情況下,是,你知道,有像 dina 架構,他很久以前談到的,你知道,是基於模型的,並且與我談論的內容有很多共同點,嗯,但是認為一切都可以透過,你知道,未知的目標函數來學習的想法,從某種意義上說,了解目標函數的唯一方法是嘗試一個動作並觀察結果。 呃,我認為這個想法根本不是推動 AI 研究的好方法。嗯,你知道,一個很好的經驗證據是,這就是 DeepMind 建立時計劃的基礎,DeepMind 在 12 年前,嗯,也許不是 12 年,但是,你知道,在成立幾年後,他們基本上圍繞強化學習建立了整個策略。 呃,他們,呃,在遊戲領域是成功的,但基本上沒有超越那個範圍。好的。對於遊戲來說,當然是有效的,因為你可以讓數百萬個你的代理副本互相對戰。所以在那里,你不在乎樣本效率是否差。呃,但在現實世界中,這完全不切實際。 所以整個,你知道,有一篇論文發表了,由 Rich 合作撰寫,第一作者是 David Silver 和 Don Precup,還有,你知道,其他幾個人,標題是,呃,「獎勵就夠了」(Reward is enough),我完全 100% 不同意那篇論文,就像完全,好的,因為我不認為是這樣,我認為,所以我提出了一個比喻,實際上在那篇論文之前,呃,就是蛋糕,也許你們有些人看過這個,對吧?所以這個想法是,比喻是,如果智慧是一個蛋糕,我們獲取的大部分 知識是通過自我監督學習。所以蛋糕的主體,蛋糕的杜松子酒(gin was),如果你願意的話,必須是自我監督學習。至少在人類中,監督學習是非常次要的。你知道,它是在此基礎之上的。那就是蛋糕上的糖霜。而強化學習是你做的最後一件事,當你做一個動作,發現它不起作用,然後你調整它。那是蛋糕上的櫻桃。 好的。所以,所以再次強調,我認為如果你專注於,我知道你來自阿爾伯塔省,那裡幾乎是一種宗教。所以,呃,你知道,而且,你知道,那是一個很棒的研究領域。呃,有很多非常酷的東西來自這個研究領域。 我有很多朋友在研究它。嗯,那沒有錯。但是認為你僅僅通過讓 RL 比現在稍微更有效一點就能達到人類水平的智慧的想法是錯誤的。好的,太好了。呃,我們還有時間回答兩個問題,一個在這裡,一個在那裡。 嗨,我是來自銀行和金融業的 Essen。所以我實際上有兩個問題。所以第一個問題是,嗯,所以我們實際上在研究,嗯,Meta Llama 3 模型。所以實際上有很多公開評論,而且,呃,根據我們的研究,呃,實驗結果,Llama 模型似乎比,呃,其他 LLM 模型,如 Anthropic Claude 和 GPT 模型,更容易產生幻覺(hallucinates),實際上您對此有何看法?您和您的研究團隊如何回應 這個問題?好的,首先我必須告訴你,我沒有參與 Llama。好的,Llama 在 GenAI 組織手中,那是,你知道,開發和產品,呃,在 FAIR,我們從事研究,長期研究。所以它是下一代 AI 系統,也許是沿著我談論的思路,但不僅僅是那個,嗯,我們實際上並沒有那麼深入地參與 Llama,我們當然為它貢獻了一些技術,但是,呃,整個 Llama 的想法來自 FAIR。所以第一個 Llama 實際上是由巴黎 FAIR 的一個由 12 或 13 人組成的小團隊製作的,他們 FAIR 內部有幾個團隊在研究 LLM,他們的團隊在性能和速度的組合上是最好的,所以這被選為我們將要開發的東西,然後一個完整的組織被建立起來,一個產品組織被創建,呃,來接手並將其轉化為產品,但是在那個時候,FAIR 變成了,你知道,上游貢獻者,但不是 Llama 的直接貢獻者。所以那是 第一點。嗯,現在所有這些性能,你知道,都是權衡,對吧?所以你談到的一些系統,它們在推論方面的成本比 Llama 高得多,這取決於我們談論的是哪個 Llama,對吧?因為有多個版本,多種大小。嗯,它們也更傾向於根據用戶數據針對各種常見任務進行微調,而 Llama 不是像 Claude 那樣的產品,它是一個基礎模型,你可以在其上構建產品,如果你 為你的垂直應用適當地微調這些系統,你將減少幻覺,對吧?所以這就像,你知道,你,讓我們想像另一個產品領域,假設你正在構建一個 Wi-Fi 路由器,那是你的產品。底層技術可能是 Linux,以及用於,你知道,網絡通信的所有軟件堆棧。 嗯,但是你將不得不做一些工作,來把 Linux 平台和運行在 Linux 上的所有東西轉化為一個實用的帶有所有安全性和所有這些東西的 Wi-Fi 路由器,對吧?所以,Llama 就像 Linux,好的?它是一個基礎。它是一個基礎設施,但它不是一個產品。你需要在它之上構建你的產品。 而且,呃,事實上,這就是開源所實現的。它允許你,你知道,為你的垂直應用以任何你想要的方式微調系統,然後在本地運行它,呃,並且以低廉的成本運行它。謝謝。最後一個問題來自這裡。抱歉。每人只有一個問題。是的。是的。謝謝。呃,感謝您的演講,呃,Yann 博士,Yann 教授。是的。我來自,嗯,一家數據交易公司,呃,在納斯達克擁有和運營。呃,我們目前正在投資和建立,嗯,數據初創公司,對吧?所以我認為我的問題是這個,嗯,所以從數據的角度來看,嗯,JEPA 模型,嗯,您對合成影片數據或原始非結構化數據有何看法,哪個更適合訓練模型本身?嗯,如果是像原始非結構化數據,嗯,您更喜歡像 Kuaishou Network 這樣的初創公司的數據,嗯,那種有點像,我認為 切分和切割 YouTube 影片,然後將其輸入模型,還是您更喜歡像真實世界的計算機視覺模型,嗯,那些在工廠、港口和倉庫等地方進行改造的模型?是的。以及您對數據多樣性(data diversity)的看法,對吧?我的意思是,你肯定需要數據多樣性。 我不會聲稱這是一個已解決的問題,人們已經弄清楚了訓練影片模型的正確訓練數據集是什麼。在我談到的這個影片 JEPA 例子中,涉及到相當多的工作。嗯,影片 Jetpack 第二版即將發布,關於使用哪些數據來訓練它,還有更多的工作。 所以你需要多樣性。你需要有事情發生的影片。大多數 YouTube 影片沒什麼事情發生。嗯,你需要結合,我的意思是,你當然需要自然影片,但你需要結合一些東西,你知道,物體動態移動。呃,結合相機固定或相機運動的情況。 嗯,你知道,你需要不同的環境,無論它們是像,呃,那種,你知道,自然的日常影片,還是它們可能是像顯微圖像或自然影片,或者像,你知道,模擬的物理系統,或者像機械小部件的影片,你知道,做它們的事情。所以我認為你需要很多多樣性。 你可能需要一些,呃,合成影片。所以例如,你知道,孩子們喜歡卡通片,動畫片。原因是在動畫片中,所有關於真實世界的不必要資訊,對於影片試圖教給你的觀點來說是不必要的資訊,都不存在。好的。好的。所以你觀看那些教育影片,呃,你知道,它們試圖教幼兒關於數字或字母,或關於,呃,你知道,各種各樣的事情,以及,你知道,與人的互動如何在 世界中運作。它非常示意化。它非常,有點像簡化了,這樣你就能注意到與現象相關的事情。所以例如,我們能否訓練一個系統從,呃,像俯視圖的,呃,角色扮演遊戲中學習關於世界非常基本的事情,對吧?你可以從中學到很多東西。 你只是觀察角色從一個房間移動到另一個房間,很快你就學會了你不能從一個房間跳到一個遙遠的房間。你必須實際上,你知道,人的軌跡大多是連續的。嗯,你可以學到一個人或一個物體不能同時在兩個地方。 你學到它不能就這樣消失。你學到它不能就這樣出現,除非你是甘道夫。呃,而且,你知道,你學到了很多這樣的事情,你知道,打開一扇門需要一把鑰匙或其他什麼,對吧。所以,呃,你知道,所有那些關於,呃,你知道,基本現實的真正非常基本的事情,你可以從,嗯,相對合成的情況中學習。 所以我設想那些將扮演重要角色。不。謝謝。所以我會問您最後一個問題。所以在您之前的一張投影片中,您主張開源,並說世界不應僅僅依賴來自美國或中國的模型。呃,那麼在您看來,像新加坡這樣的其他國家在 AI 創新的未來中可以扮演什麼角色?好的,我很高興您問這個問題,因為這是我除了研究問題之外最喜歡的問題之一。所以,嗯,你知道,我認為正如我 在演講開始時所說,有一個未來,我們所有與數位世界的互動都將由 AI 助理來調解,而我們作為一個社會,更廣泛地說是人類,無法承受這樣一個事實,即這些資訊僅僅由來自美國西海岸或中國的兩三家公司的少數幾個 AI 助理過濾,因為我們需要,呃,能夠說世界上所有語言的系統。 世界上大約有 6000 種語言在使用,類似這個數字。其中大部分沒有書面形式。嗯,存在大量的文化多樣性。大多數文化,嗯,資訊,如果你願意的話,實際上並沒有數位化。嗯,有很多文化根本就不存在(數位形式),對吧?而且它不一定能翻譯成文本。 你知道,它可以是傳統音樂的錄音。它可以是,呃,你知道,傳統服飾或舞蹈或習俗或其他什麼的圖片,或者,你知道,不同人群如何建造特定的手工藝品。嗯,所有這些都是除非你保存下來否則就會丟失的專業知識。所以我們需要 AI 系統來,你知道,學習所有這些東西,這不是任何單一實體可以做到的,呃,你知道,無論是像美國西海岸的大型科技公司還是大型中國科技公司。 所以這意味著,如果我們希望 AI 系統能夠說世界上所有的語言,理解所有的文化,理解所有的價值體系,擁有所有可能的生活哲學、政治、宗教等方面的偏見。它不會來自單一的,來自少數幾個 AI 助理。 它將必須來自廣泛多樣的 AI 助理。而這樣做的問題在於,構建基本的基礎模型非常昂貴,目前只有少數實體能夠做到這一點。所以最好的進行方式是,讓美國、中國,也許還有歐洲的一些實體提供開源的基礎模型,任何人都可以在其上構建他們想要的任何助理,說他們的語言,理解他們的文化等等。 我實際上認為,未來這些金融模型將被視為公共基礎設施,並將實際上由世界各地的許多參與者協作訓練。所以這也許是新加坡可以扮演重要角色的地方,它可以成為亞洲的一個樞紐,呃,至少在遠東地區,成為一個中心,比如說,你有計算基礎設施和來自這所大學、NTU 以及也許其他幾所大學的能力,呃,來為訓練一個,呃,有點像全球範圍的基礎模型做出貢獻。 好的。那麼這需要什麼?需要專業知識,一個大型 GPU 數據中心,嗯,以及其他人沒有的數據。好的。你可以得到它,這是一個小國,所以你可能沒有大量的數據,但你可以幫助你的鄰國收集這些數據,比如印度尼西亞或馬來西亞,或者,呃,你知道,該地區的其他國家,這樣下一代金融模型基本上將會說所有本地語言,僅僅在印度尼西亞就有大約 300 種語言,或者類似的數字,對吧?所以 嗯,所以我認為那是一件重要的事情。所以我認為未來會有某種形式的聯盟。我,我不是在談論 Meta 公司的政策。我,我是在談論,比如,你知道,預測我認為會是一件好事的事情,將會是某種全球範圍的合作夥伴關係,與像 Meta 這樣的公司,也許還有 Mistral,也許還有,嗯,你知道,Deepseek,也許還有中國的其他公司,呃,共同為訓練一個能夠說世界上所有 語言,理解所有文化的全球基礎模型做出貢獻,任何人都可以在其上構建實際的產品,如果你考慮一下,這將重複互聯網軟件平台,互聯網軟件基礎設施的歷史。現在整個互聯網都運行在開源之上,呃,它一開始並非如此,有三個主要的參與者在競爭提供互聯網的硬件和軟件基礎設施,在,呃,在 90 年代,像 Sun Microsystems 這樣的公司,像 Microsoft,像,呃,Hewlett Packard,Dell,它們都提供自己的計算機、自己的操作系統、自己的堆棧。所有這些都被商品硬件和 Linux 完全取代了。好的,AI 也會是同樣的情況。所以開源是否會在 AI 領域獲勝,只是時間問題。 好的,在這一點上,再次感謝您帶來一場逆勢而上但又非常激動人心的講座。非常感謝。謝謝。謝謝 LeCun 教授和 Mohan 教授。我們能否請您留在台上,我們想和觀眾拍一張合影。[掌聲] 謝謝 LeCun 教授和 Mohan 教授。女士們先生們,我們今天上午的會議現已結束,希望這次會議對您來說有趣且富有見地。請務必查看 NUScast 上現在提供的本次活動的影片錄像。謝謝大家,祝您週末愉快。