原文連結: Yann LeCun: Human Intelligence is not General Intelligence

Jason: 我非常高興歡迎 Meta 的首席 AI 科學家、圖靈獎得主、被許多人譽為 AI 教父的 Yann LeCun 來到 AI Inside。歡迎來到節目,Yann。很高興見到你。 Yann: 謝謝邀請我上節目。 Jason: 有人介紹你為 AI 教父時,你會不會覺得聽膩了?你會不會有點像,好吧,又來了。 Yann: 我會摀住耳朵,這樣才不會臉紅。 Jason: 但到了這個地步你總得接受,因為這是事實。嗯,這次對話我們可以有很多不同的方向。我們最終會談到你的工作,顯然還有 Meta 的工作,以及當前這個大型語言模型(LLM)的時刻。

當前 AI 的侷限性

我想首先要提出的問題是,我們如此深陷於當前的人工智慧領域,這似乎真的是 LLM 的世代,而且可能很快會有相關的新進展。 但我們仍然深陷其中,而你對於 LLM 的局限性一直相當有主見,與此同時,我們也看到像 OpenAI 這樣的公司,主要基於其在 LLM 技術上的成功,獲得了破紀錄的融資。所以我一方面看到報酬遞減,另一方面,公司們卻把一切都押在生成式 AI 和 LLM 上。 我很好奇你的看法,為什麼他們可能沒有看到你所看到的關於這項技術的問題。或者也許他們看到了,只是處理方式不同。你對此有何看法? Yann: 哦,也許他們看到了。毫無疑問 LLM 是有用的。我的意思是,特別是在程式碼助理等方面。未來,可能對於更通用的 AI 助理工作也是如此。人們正在談論代理系統(agentic systems)。但它還不是完全可靠。 對於這類應用,主要的問題,而且這一直是 AI 和更廣泛的電腦技術中反覆出現的問題,就是你可以看到令人印象深刻的展示。但是到了實際部署一個足夠可靠、可以交到人們手中日常使用的系統時,還有很長的路要走。要讓這些系統足夠可靠要困難得多。對吧? 十年前,我們看到汽車在鄉間、街道上自動駕駛的展示,大約十分鐘就需要人為干預。我們取得了很大的進步,但我們仍然沒有達到汽車能夠像人類一樣可靠地自動駕駛的程度,除非我們作弊,這沒關係,這就是 Waymo 和其他公司正在做的。 所以在過去七十年的 AI 歷史中,一直重複著這樣的故事:人們提出一個新的範式,然後宣稱,好了,就是這個了。這將帶領我們達到人類水平的 AI。十年內,地球上最聰明的實體將是機器。而每一次都被證明是錯誤的,因為新的範式要麼遇到了人們未曾預見的限制,要麼結果只是擅長解決某個子類別的問題,而這個問題並非通用智慧問題。 所以,一代又一代的 AI 研究人員、企業家和創始人,不斷提出這些主張,而每一次他們都錯了。 所以,我不想貶低 LLM。它們非常有用。應該對它們進行大量投資。應該對運行它們的基礎設施進行大量投資,這實際上是大部分資金的去向。不是為了訓練它們或什麼,最終是為了服務可能數十億的用戶。但是,就像所有其他電腦技術一樣,即使它不是人類水平的智慧,它也可以是有用的。 現在,如果我們想要追求人類水平的智慧,我認為我們應該這樣做。我們需要發明新技術。我們離達到那個水平還差得遠呢。 Jeff: Yann,我真的很高興你來到這裡,因為我在這個節目和其他地方經常引用你的話,因為我認為你是 AI 領域現實主義的聲音。我沒有聽到你像其他人那樣鼓吹那些炒作。你對於我們現在所處的階段一直非常清楚。我想你曾把我們比作,也許我們快要達到聰明貓咪或三歲小孩的水平。 Yann: 甚至還沒到。 Jeff: 對。而且我想你也談到過我們已經達到了 LLM 能力的極限。所以會有下一個範式,下一次飛躍。我想你談到過它們需要更好地理解現實。但你能談談你認為研究應該走向何方,你正在將其引向何方,或者接下來應該走向何方嗎?我們接下來應該把資源投入到哪裡,才能從 AI 中獲得更多?

超越大型語言模型:世界模型與學習

Yann: 所以我三年前寫了一篇長文,解釋了我認為未來十年 AI 研究應該走向何方。這是在全世界了解 LLM 之前。當然,我知道它,因為我們之前就在研究。但是,這個願景沒有改變。它沒有受到 LLM 成功的影響。 事情是這樣的。我們需要能夠理解物理世界的機器。我們需要能夠推理和規劃的機器。我們需要擁有持久記憶的機器。我們需要這些機器是可控和安全的,這意味著它們需要由我們給定的目標驅動。我們給它們一個任務,它們完成它,或者它們給出我們所問問題的答案,僅此而已。對吧?它們不能逃避我們要求它們做的任何事情。 所以,我在那份文件中解釋的是,我們可能如何,以一種方式,達到那一點。它的核心是一個叫做「世界模型(world model)」的概念。 我們腦中都有世界模型。動物也有,對吧?它基本上是我們腦中的心智模型,讓我們能夠預測世界將會發生什麼。要麼是因為世界就是世界,要麼是因為我們可能採取的行動。 所以如果你能預測我們行動的後果,那麼我們可以做的是,如果我們給自己設定一個目標、一個任務去完成,我們可以使用我們的世界模型,想像一個特定的行動序列是否真的會實現那個目標。好嗎?這讓我們能夠規劃。所以規劃和推理實際上就是操縱我們的心智模型,以弄清楚一個特定的行動序列是否會完成我們為自己設定的任務。好嗎?這就是心理學家所說的「系統 2(System 2)」。一個深思熟慮的,我不想說有意識的,因為這是一個有爭議的詞,但是一個深思熟慮的思考如何完成任務的過程,基本上是這樣。 而我們並不知道如何真正做到這一點。我的意思是,我們在研究層面上取得了一些進展。那個領域許多最有趣的研究都是在機器人學的背景下完成的。因為當你需要控制一個機器人時,你需要事先知道對手臂施加扭矩會產生什麼效果。 事實上,在控制理論和機器人學中,這種想像一系列行動後果,然後基本上通過優化搜索滿足任務的行動序列的過程,甚至有一個名字,甚至有一個縮寫。它叫做模型預測控制(Model Predictive Control, MPC)。這是最優控制中一個非常經典的方法,可以追溯到幾十年前。 這裡的主要問題是,在機器人學和控制理論中,這種方式的運作,那個模型是一堆由某人,由工程師編寫的方程式。你只控制一個機器人手臂或火箭之類的。你可以直接寫下它的動力學方程。 但我們需要為 AI 系統做的是,我們需要這個世界模型是從經驗中學習或從觀察中學習的。所以這似乎是在動物和也許是人類嬰兒的心智中發生的那種過程,通過觀察學習世界如何運作。這部分似乎真的很難複製。 現在,這可以基於一個非常簡單的原則,人們已經玩了很長時間但沒什麼成功,叫做自我監督學習(Self-supervised Learning)。而自我監督學習在自然語言理解和 LLM 等領域取得了令人難以置信的成功。事實上,它是 LLM 的基礎。對吧?所以你拿一段文字,然後訓練一個大型神經網路來預測文本中的下一個詞。好嗎?基本上就是這樣。訣竅是如何讓它變得高效等等。但這就是 LLM 的基礎。你只需訓練它預測文本中的下一個詞。然後當你使用它時,你讓它預測下一個詞,將預測的詞移入它的視窗,然後預測第二個詞,再移入那個詞,預測第三個。對吧?這就是自回歸預測。這就是 LLM 的基礎。而訣竅在於,你有多少錢可以雇人來微調它,以便它能正確回答問題。這正是現在大量資金投入的地方。 所以你可以想像使用這種自我監督學習的原則來學習圖像的表示,學習預測影片中接下來會發生什麼。對吧?所以如果你給電腦看一段影片,並訓練一些大型神經網路來預測影片中接下來會發生什麼,如果系統能夠學習這個並且在預測方面做得很好,它可能已經理解了很多關於物理世界潛在本質的東西。它認為物體根據特定的定律運動,對吧?所以有生命的物體可以以更不可預測的方式運動,但仍然滿足一些約束條件。沒有支撐的物體會因為重力而下落,等等。對吧? 現在,人類嬰兒需要九個月的時間來學習重力。這是一個漫長的過程。我認為年幼的動物學得更快,但它們最終對重力的理解程度不同。儘管貓和狗在這方面顯然非常擅長。 那麼,我們如何複製這種訓練呢?所以如果我們做幼稚的事情,這是我二十年來一直在做的事情,類似於處理一段文本,但只是拿一段影片,然後訓練一個系統來預測影片中接下來會發生什麼,它並不能真正起作用。 所以如果你訓練它預測下一幀,它學不到任何有用的東西,因為這太容易了。如果你訓練它預測更長遠的未來,它真的無法預測影片中會發生什麼,因為有很多可能發生的合理事情。好嗎?所以在文本的情況下,這是一個非常簡單的問題,因為字典裡只有有限數量的詞。所以你永遠無法準確預測一個序列之後會跟著哪個詞,但你可以預測字典中所有詞的機率分佈。這就足夠了。你可以表示預測中的不確定性。你無法對影片這樣做。我們不知道如何表示所有圖像或影片幀或影片片段集合上的適當機率分佈。這實際上是一個數學上難以處理的問題。 所以這不僅僅是我們沒有足夠大的電腦的問題。它本質上就是難以處理的。所以直到大概五、六年前,我對此沒有任何解決方案。我認為沒有人有任何解決方案。我們提出的一個解決方案是一種架構,它改變了我們做這件事的方式。 我們不是預測影片中發生的一切,而是基本上訓練一個系統來學習影片的表示,然後我們在那個表示空間中進行預測。而那個表示消除了影片中很多無法預測或不可能弄清楚的細節。 那種架構被稱為 JEPA,聯合嵌入預測架構(Joint Embedding Predictive Architecture)。稍後我可以告訴你一些關於它的事情。但可能令人驚訝的是,它不是生成式的。 所以每個人都在談論生成式 AI。我的直覺是,下一代 AI 系統將基於非生成式模型,基本上是這樣。

關於通用人工智慧 (AGI) 與人類水平智慧的探討

Jason: 所以,聽你談論我們目前所處階段的真正局限性,再看看每個人似乎都在宣稱 LLM 有多麼偉大,並且「我們正處於通用人工智慧(AGI)的邊緣,原因如下」,這讓我想到了這一點。這取決於你問誰。對吧?有些人會說,「它就在眼前。」另一些人會說,「哦,它已經來了。看看這個。是不是很神奇?」 Jeff: 還有一些人說「它永遠不會到來。」 Jason: 是的。然後還有一些人說,「它永遠不會到來。」我想我們在這個節目中經常以一種難以置信的態度討論這個話題,而我認為你剛才說的話對我來說有點強調了這一點。你如何圍繞你所談論的所有方面進行建模或創建一個能夠真正分析的模型?比如,我們有 LLM 專注於推理。儘管也許,也許與我們現在所看到的不同,那是一種不同類型的推理。也許那並不是人類推理方式下的真正推理。但接著你還有物理世界。你還有規劃,這種持久記憶。你談到的所有這些組成部分,當你這樣說時,真的讓我更加確信 AGI 並非近在眼前,AGI 實際上是一個遙遠的理論,可能永遠不會實現,或者至少是在非常非常遙遠的未來才會實現?你對此有何看法? Yann: 好的。首先,我絕對毫不懷疑,在未來的某個時刻,我們將擁有在所有人類擅長的領域至少和人類一樣聰明的機器。好嗎?這不是問題。人們對此有過很大的哲學疑問。很多人仍然相信人性是某種難以捉摸的東西,我們永遠無法將其簡化為計算。我在這個維度上不是懷疑論者。我毫不懷疑在某個時刻,我們將擁有比我們更聰明的機器。它們在狹窄的領域已經是這樣了。對吧? 那麼接下來的問題是,AGI 到底意味著什麼?它指的是通用……你所說的通用智慧是什麼意思?你是指像人類智慧一樣通用的智慧嗎?如果是這樣,那麼好吧,你可以使用這個詞,但它非常具有誤導性,因為人類智慧一點也不通用。它是極其專門化的。我們被進化塑造成只做那些對生存有價值的任務。而且,我們認為自己擁有通用智慧,但我們根本不通用。只是所有我們無法理解的問題,我們無法思考它們。這讓我們相信我們擁有通用智慧,但我們絕對沒有通用智慧。好的。所以我認為這個詞首先就是無稽之談。它非常具有誤導性。 我更喜歡我們用來指代人類水平智慧概念的那種詞語,在 Meta 內部我們稱之為 AMI,高級機器智慧(Advanced Machine Intelligence)。好嗎?這是一個更開放的概念。我們實際上發音為「ami」,在法語中是朋友的意思。但如果你願意,就叫它人類水平智慧吧。 對吧?所以毫無疑問它會發生。它不會在明年發生。它不會在兩年後發生。它可能在未來十年內發生或在一定程度上發生。好的。所以它並不是那麼遙遠。如果我們目前正在研究的所有事情都被證明是成功的,那麼也許在十年內,我們就能很好地把握我們是否能達到那個目標。好的。但幾乎可以肯定它比我們想像的要難。而且可能比我們想像的要難得多,因為它總是比我們想像的要難。在 AI 的歷史上,它總是比我們想像的要難。你知道,這就是我之前告訴你的故事。 所以,我是樂觀的。好嗎?我不是那些說我們永遠達不到目標的悲觀主義者之一。我不是那些說我們現在正在做的所有事情都沒用的悲觀主義者之一。那不是真的。它非常有用。我不是那些說我們將需要一些量子計算或一些全新的原理等等的人。不。我認為它將基於深度學習,基本上是這樣。那個基本原則,我認為,將伴隨我們很長時間。 但在這個領域內,我們需要發現和實現的那類東西,我們還沒有達到。我們缺少一些基本的概念。 而說服自己這一點的最好方法是說,好吧。我們有可以回答網際網路上任何有答案的問題的系統。我們有可以通過律師資格考試的系統,這在很大程度上基本上是資訊檢索。我們有可以縮短文本並幫助我們理解它的系統,它們可以批評我們正在寫作的作品,它們可以生成程式碼。但生成程式碼實際上,在某種程度上,相對簡單,因為語法很強,而且很多是愚蠢的。對吧? 我們有可以解方程的系統,可以解決問題,只要它們被訓練過解決那些問題。如果它們從頭看到一個新問題,目前的系統就是找不到解決方案。實際上最近有一篇論文表明,如果你用最新的數學奧林匹克競賽題目測試所有最好的 LLM,它們基本上得到零分,因為那是它們沒有被訓練過解決的新問題。 所以好吧。所以我們有那些可以操縱語言的系統,那會愚弄我們,讓我們以為它們很聰明,因為我們習慣於認為聰明的人能夠以聰明的方式操縱語言。好的。但是我的家用機器人在哪裡?我的 L5 級自動駕駛汽車在哪裡?能夠做貓能做的事情的機器人在哪裡?甚至一個可以做貓能做的事情的模擬機器人。貓能做什麼。對吧?問題不在於我們不能製造機器人。我們實際上可以製造具有物理能力的機器人。只是我們不知道如何讓它們足夠聰明。 而且處理真實世界和處理產生動作的系統,比處理理解語言的系統要困難得多得多。再次強調,這與我之前提到的部分有關。語言是離散的。它有很強的結構。真實世界是一團巨大的混亂,而且它是不可預測的。它不是確定性的。你知道嗎?它是高維度的。它是連續的。它有所有的問題。所以讓我們試著先建造一個能像貓一樣快地學習的東西。

智慧的建模:超越語言的推理

Jeff: 我有很多問題想問你,但我會在這個問題上再停留一分鐘。人類水平的活動或思想甚至應該是模型嗎?那是不是有局限性?幾年前有一本很棒的書,是 Alex Rosenberg 寫的,叫做《歷史如何搞錯事情》(How History Gets Things Wrong),他反駁了心智理論(theory of mind),認為我們沒有經歷我們所認為的那種推理過程。事實上,我們有點像 LLM 在做的事情,意思是我們腦子裡有一堆錄影帶。當我們遇到一個情況時,我們會找到最近似的錄影帶並播放它,然後以那種方式決定是或否。所以那聽起來有點像人類的心智。但我們傾向於擁有的人類心智模型是關於推理、權衡事物等等。而且,正如你所說,我們並非普遍智慧,但機器可以想像地做我們做不到的事情,現在它就能做我們做不到的事情。它可以做得更多。所以當你考慮成功和那個目標時,那個模型是什麼?達到貓的程度將是一個巨大的勝利。但你更大的目標是什麼?是人類智慧,還是別的什麼? Yann: 嗯,這是一種在以下方面類似於人類和動物智慧的智慧類型。目前的 AI 系統很難解決它們以前從未遇到過的新問題。對吧?所以它們沒有我之前告訴你的那個心智模型,那個世界模型,讓它們能夠想像它們行動的後果之類的。它們不是那樣推理的。對吧?我的意思是,一個 LLM 肯定不是,因為它能做任何事情的唯一方式就是產生詞語,產生標記(token)。對吧? 所以你欺騙 LLM 花更多時間思考一個複雜問題而不是一個簡單問題的一種方法是,你要求它經歷推理的步驟。結果,它產生了更多的標記,然後花費更多的計算來回答那個問題。但這是一個糟糕的技巧。這是一個權宜之計(hack)。這不是人類推理的方式。 LLM 做的另一個例子是,用於編寫程式碼或回答問題,你讓一個 LLM 生成大量大量的標記序列,這些序列具有一定的合理機率或類似的東西。然後你有第二個神經網路,試圖評估其中的每一個,然後選擇最好的一個。好嗎?這有點像對一個問題產生大量大量的答案,然後讓一個評論家告訴你哪個答案是最好的。 現在有很多 AI 系統是這樣工作的,它在某些情況下有效。如果你想要一個系統,你的電腦系統下棋,它就是這樣工作的。它產生一個包含你所有可能走法,然後是你的對手,然後是你,然後是你的對手的樹狀結構。那棵樹呈指數級增長。所以你無法生成整棵樹。你必須有一些聰明的方法只生成樹的一部分。然後你有一個所謂的評估函數或價值函數,它挑選出樹中最好的分支,導致一個最有可能獲勝的局面。而所有這些東西現在都是經過訓練的。好嗎?它們基本上是生成樹中好分支並選擇它的神經網路。 那是一種有限形式的推理。為什麼它是有限的?順便說一句,這是人類非常不擅長的一種推理。你在玩具店買的一個 30 美元的小玩意就能在西洋棋上打敗你,這一事實證明了人類在這種推理上完全不行。好嗎?我們就是真的很不擅長。我們就是沒有那個記憶容量、計算速度等等。對吧?所以我們在這方面很糟糕。 然而,我們真正擅長的是,貓、狗和老鼠真正擅長的那種推理,是那種在真實世界中規劃行動,並以層級化的方式規劃它們。 所以知道如果我們想,讓我舉一個人類領域的例子,但在某種動物任務中也有類似的例子。對吧?我的意思是,你看到貓學會打開罐子,跳到門上打開它們,打開門鎖之類的事情。所以,它們學會了如何做這些,它們學會了如何規劃那一連串的行動來達到一個目標,那就是到達另一邊,也許是為了獲取食物。你看到松鼠也這樣做。對吧?我的意思是,它們在學習如何做這類事情的方式上實際上相當聰明。 現在這是一種我們不知道如何用機器複製的規劃類型。而所有這些都完全是內部的。它與語言無關。對吧?我們作為人類,認為思考與語言有關,但事實並非如此。動物可以思考。不會說話的人可以思考。 而且有些類型的推理。大多數類型的推理與語言無關。所以如果我告訴你想像一個立方體漂浮在你面前或我們面前的空中,好嗎?現在將那個立方體沿著垂直軸旋轉 90 度。 所以可能,你假設了立方體是水平的,底部是水平的。你沒有想像一個有點側放的立方體。然後你將它旋轉 90 度,你知道它看起來和你開始時的立方體一模一樣,因為它是一個立方體。它有 90 度對稱性。這個推理中沒有涉及語言。 它只是,你知道的,圖像和對情況的某種抽象表示。以及我們是如何做到這一點的?就像,我們有那些思想的抽象表示,然後我們可以通過我們想像採取的虛擬行動來操縱那些表示,比如旋轉立方體,然後想像結果。對吧?而這就是讓我們能夠在抽象層面上實際完成真實世界任務的原因。 立方體是用什麼做的,有多重,它是否漂浮在我們面前,都無關緊要。你知道嗎?我的意思是,所有的細節都不重要,表示足夠抽象,以至於真的不關心那些細節。 如果我計劃,我在紐約。對吧?如果我計劃明天到巴黎,我可以試圖根據我能採取的初級行動來規劃我的巴黎之行,這些行動基本上是對我肌肉的毫秒級控制。但我不可能做到這一點,因為那是好幾個小時的肌肉控制,而且,它將取決於我沒有的資訊。比如,我可以到街上叫計程車。我不知道計程車要多久才會來。我不知道紅綠燈會是紅燈還是綠燈。我無法規劃我的整個行程。對吧? 所以我必須做層級規劃。我必須想像如果我明天要去巴黎,我首先必須去機場趕飛機。好的。現在我有個去機場的子目標。我怎麼去機場?我在紐約,所以我可以下樓到街上,叫輛計程車。我怎麼下樓到街上?哦,我必須走過電梯、樓梯,按下按鈕,下樓,走出大樓。 而在那之前,我有個去電梯或樓梯的子目標。我甚至如何從椅子上站起來?所以你能用語言解釋你如何爬樓梯或從椅子上站起來嗎?你不能。就像這是對真實世界的低層次理解。 在所有我剛才描述的設定目標中,在某個點上,你會達到一種情況,你可以 просто 完成任務而不需要真正地規劃和思考,因為你習慣於從椅子上站起來。 但是這個過程的複雜性,用你內部的世界模型想像你的反應後果,然後規劃一系列行動來完成這個任務,這就是未來幾年 AI 的巨大挑戰。我們還沒到那一步。

Meta 的開源策略與 LLAMA

Jeff: 所以我一直想問一個問題。教授,這真是一堂很棒的課。我對此非常感激,但我也想了解 Meta 目前對此的策略觀點。以及 Meta 決定走,我們稱之為開源、開放或可用或其他什麼,但 LLAMA 是一個巨大的工具。我作為一名教育工作者自己,非常感激。我是 CUNY 的榮譽教授,但現在我在 Stony Brook,正是因為 LLAMA,大學才能運行模型並從中學習和構建東西。這讓我印象深刻,而且我經常說,我認為 Meta 的策略,你在 LLAMA 及相關項目上的策略,對行業的許多部分來說是一個攪局者(spoiler),但對大量的開放式開發,無論是學術界還是企業界,都是一個推動者(enabler)。所以我很想聽聽當事人的說法,開放 LLAMA 的策略背後是什麼? Yann: 好的。它恰好是三家公司的攪局者。 Jeff: 是啊。嗯,沒錯。 Yann: 它是成千上萬家公司的推動者。 所以顯然,從純粹的道德角度來看,這顯然是正確的做法。對吧?我的意思是,LLAMA,LLAMA 2,以合格開源形式發布的 LLAMA 2,基本上完全啟動了 AI 生態系統,不僅在工業界和新創公司,而且在學術界也是如此,正如你所說。對吧?我的意思是,學術界基本上沒有能力像公司那樣訓練自己同等級別的基礎模型。所以他們依賴這種開源平台才能對 AI 研究做出貢獻。 這也是 Meta 實際上以開源方式發布那些基礎模型的主要原因之一,是為了促進創新,更快的創新。問題不在於這家或那家公司領先另一家三個月,這現在確實是情況。問題是,我們目前擁有的 AI 系統是否具備我們想要構建的產品所需的能力?答案是否定的。 Meta 最終想要構建的產品是一個 AI 助理,或者可能是一系列 AI 助理,它始終伴隨我們,也許存在於我們的智慧眼鏡中,我們可以與之交談。也許它會在鏡片中顯示資訊等等。而要讓這些東西發揮最大作用,它們需要具備人類水平的智慧。 現在我們知道,朝著人類水平智慧邁進,首先,它不會是一個事件。不會有一天我們沒有 AGI,而第二天我們就有了 AGI。事情不會這樣發生。 Jeff: 如果那樣發生了,我請你喝酒。 Yann: 嗯,應該是我請你喝酒,因為它不會發生。 事情不會這樣發生。對吧?所以問題真正的關鍵是,我們如何以最快的速度朝著人類水平智慧取得進展?由於這是我們面臨的最大科學和技術挑戰之一,我們需要來自世界各地的貢獻。好的想法可以來自世界任何地方。 我們最近看到了 DeepSeek 的例子,對吧,它讓矽谷的所有人都感到驚訝。對我們這些在開源世界裡的人來說,並沒有那麼驚訝。對吧?我的意思是,這就是重點。這在某種程度上是對整個開源理念的驗證。 所以好的想法可以來自任何地方。沒有人壟斷好的想法,除非是那些有著極度膨脹的優越感的人。 Jeff: 我們不是在特指任何人,對吧? Yann: 不。不。我們沒有在特指任何人。在美國的某些地區,這些人的集中度很高。 所以,當然,他們在傳播這樣一種觀點,即他們不知何故比其他人更好,這符合他們的既得利益。所以我認為這仍然是一個重大的科學挑戰,我們需要每個人都做出貢獻。所以我們所知道的在學術研究背景下做到這一點的最好方法是,你發表你的研究,你盡可能地以開源方式發布你的程式碼,然後讓大家來貢獻。 我認為過去十幾年的 AI 歷史確實表明,我的意思是,進展之所以如此之快,是因為人們在共享程式碼和科學資訊。而該領域的一些少數參與者,在過去三年裡開始出現,因為他們需要從技術中產生收入。 現在在 Meta,我們不從技術本身產生收入。我們從廣告中產生收入,而那些廣告依賴於我們在技術之上構建的產品質量。它們依賴於社交網路的網路效應,並作為通往人們和用戶的管道。所以我們分發我們的技術這一事實在商業上並沒有傷害我們。事實上,它幫助了我們。

AI 的未來:助理、穿戴式裝置與多樣性

Jason: 是的。100%。聽你談話,你提到了穿戴式裝置和眼鏡的話題,那當然總是引起我的注意。去年十二月我有機會體驗了 Google 的 Project Astra 眼鏡。從那以後,它一直讓我印象深刻,並真正鞏固了我對——我們不是在談論十年、二十年後的 AI 及其將會變成什麼樣——而是更像是點明了 AI 的這個時刻,那就是一個非常好的下一步,在佩戴我們可能已經在佩戴的硬體(如果它是一副看起來像我們普通眼鏡的眼鏡)的同時,將世界背景化。突然之間我們有了額外的背景資訊。 我想我能夠在你我之間的談話中,從我們現在所處的位置和我們可能走向的未來之間畫出的一條線是,不僅是經驗給佩戴者帶來的背景資訊,而且對你、對 Meta 以及對那些創建這些系統的人來說,智慧眼鏡在真實世界中,吸收關於人類如何在我們的物理世界中生活和運作的資訊,可能是一個非常好的知識來源,可以為你之前談到的內容提供借鑒。我的思路對嗎?或者那只是拼圖中的一小塊,非常小的一塊? Yann: 嗯,這是一塊,重要的一塊。但是,是的,我的意思是,你有一個始終伴隨你的助理,它看到你所看到的,聽到你所聽到的,如果你允許的話,顯然。看看你是否允許,肯定的。 你知道,但在某種程度上,是你的知己,甚至可能比人類助理更能幫助你。我的意思是,這當然是一個重要的願景。事實上,願景是你不會只有一個助理。你將擁有一整隊智慧虛擬助理,在你周圍與你一起工作。就像我們所有人都會成為老闆一樣。 好嗎?我的意思是,人們感到威脅。有些人因為機器會比我們更聰明而感到威脅,但我們應該因此感到被賦予力量。我的意思是,它們將為我們工作,你知道嗎?我不知道你怎麼樣,但作為一名科學家或行業經理,可能發生在你身上的最好的事情就是你雇用了比你更聰明的學生、工程師或為你工作的人。 那是理想情況。你不應該因此感到威脅。你應該因此感到被賦予力量。所以我認為那是我們應該設想的未來。聰明的助理集合,在你的日常生活中幫助你。也許比你更聰明。 你給它們一個任務,它們完成它,也許比你做得更好。那很棒。 現在這聯繫到我想提出的與上一個問題相關的另一個觀點,那就是關於開源。那就是,在那個未來,我們與數位世界的大部分互動將由 AI 系統介導。好嗎? 這就是為什麼 Google 現在有點抓狂,因為他們知道沒有人會再去找搜尋引擎了。對吧?你只會和你的 AI 助理交談。所以他們正試圖在 Google 內部試驗這個。 那將通過眼鏡實現,所以他們意識到他們可能必須製造那些眼鏡。就像我幾年前意識到的那樣。所以我們有一點領先優勢,但那確實是將要發生的事情。我們將擁有那些始終伴隨我們的 AI。它們將介導我們所有的資訊飲食。 現在如果你考慮一下這個,如果你是世界任何地方的公民,你不會希望你的資訊飲食來自美國西海岸或中國少數幾家公司構建的 AI 助理。你需要高度多樣化的 AI 助理,首先,說你自己的語言,無論是晦澀的方言還是地方語言。其次,理解你的文化、你的價值體系、你的偏見,無論它們是什麼。 所以我們需要高度多樣化的此類助理,原因與我們需要高度多樣化的新聞媒體相同。對吧?我意識到我正在和一位新聞學教授交談。 但我說的對嗎? Jeff: 阿門。事實上,我認為這正是我所慶祝的,網際網路和下一個 AI 可以做的是推倒大眾媒體的結構,並再次在人類層面上開放媒體。AI 讓我們更具人性,我希望如此。 Yann: 我也希望如此。 所以我們用現有技術實現這一點的唯一方法是,如果構建那些具有文化多樣性等等的助理的人們,能夠接觸到強大的開源基礎模型。因為他們不會有資源來訓練自己的模型。對吧?我們需要能夠說世界上所有語言,理解所有價值體系,並具有你能想像到的所有文化、政治偏見等等的模型。 所以將會有成千上萬種這樣的模型供我們選擇,它們將由世界各地的小型商店構建。它們將必須建立在像 Meta 這樣的大公司,或者也許是一個訓練那些基礎模型的國際聯盟所訓練的基礎模型之上。 我看到的景象,我看到的市場演變,類似於九十年代末或兩千年代初網際網路軟體基礎設施所發生的情況,當時在網際網路的早期,你有 Sun Microsystems、Microsoft、HP、IBM 和其他一些公司試圖提供網際網路的硬體和軟體基礎設施,它們自己版本的 UNIX 或其他什麼,或者 Windows NT,以及它們自己的網頁伺服器,它們自己的機架,等等等等。所有這些都被 Linux 和商品硬體完全消滅了。對吧? 而它被消滅的原因是,運行 Linux 作為平台軟體。它更便攜、更可靠、更安全、更便宜等等。所以 Google 是最早這樣做的公司之一,在商品硬體和開源操作系統上構建基礎設施。Meta,當然,也做了完全相同的事情,現在每個人都在這樣做,甚至 Microsoft。 所以,我認為市場將會有類似的壓力,要求將那些 AI 基礎模型開放和免費,因為它就像網際網路的基礎設施一樣,是一個基礎設施。

學術界、學生與結語

Jeff: 你教書多久了? Yann: 二十二年。二十二年。 Jeff: 那麼你看到現今在你領域的學生和他們的抱負有什麼不同? Yann: 我不知道。我很難說,因為在過去的十幾年左右,我只教過研究生。所以我沒有看到博士生有任何顯著的變化,除了他們來自世界各地這一事實。我的意思是,美國現在正在發生一些絕對可怕的事情,研究經費被削減,然後還有威脅說不給外國學生簽證之類的事情。我的意思是,如果真的按照看起來的趨勢實施,這將完全摧毀美國的技術領先地位。大多數 STEM,科學、技術、工程、數學領域的博士生都是外國人。 在大多數工程學科的研究生階段,這個比例甚至更高。主要是外國學生。大多數科技公司的創始人或 CEO 都是外國出生的。 Jeff: 法國大學正在為美國研究人員提供去那裡發展的機會。我還有一個問題問你。你有貓嗎? Yann: 我沒有,但是,我們最小的兒子有一隻貓,我們偶爾會照看那隻貓。 Jeff: 好的。我還在想那是不是你的模型呢。 Jason: 好了。嗯,Yann,這次談話非常精彩。我知道我們比原定時間稍微超了一點。所以我們非常感謝你抽出時間。是的。這真的非常棒,而且正如 Jeff 之前所說,能親耳聽到你的一些觀點真是太好了,因為你在我們的談話中經常被提及,我們非常欣賞你在 AI 世界的觀點以及你多年來所做的所有工作。感謝你和我們在一起。這是一種榮幸。 Jeff: 感謝你為這次對話帶來的理智。 Yann: 嗯,非常感謝你們。和你們交談真的很愉快。