原文連結: 人工智慧之父:人工智慧需要物理學才能進化 | Yann LeCun
目前的 AI 系統在許多方面仍然非常愚蠢。我們之所以誤以為它們很聰明,是因為它們能夠非常出色地操控語言。
楊立昆(Yann LeCun)教授是 Meta 的副總裁,負責開發全球最強大的 AI 系統之一。他說:「我的同事和我一直在研究如何設計一種全新的 AI 系統,這種系統將能夠理解物理世界、擁有持久的記憶、具備推理和規劃能力。」
這樣的系統將擁有情感,例如恐懼或興奮。
楊教授曾獲得計算機科學領域的最高榮譽——圖靈獎(Turing Award),以及英國女王伊麗莎白二世工程獎(Queen Elizabeth II Prize for Engineering)。
馬斯克(Elon Musk)曾說,Tesla 將在五年內實現 L5 級自動駕駛。然而,他已經這麼說了八年,每年都說「明年就會實現」,但顯然這並沒有發生。因此,我們不應再相信他的說法,因為他一直錯誤預測。他可能真的以為自己是對的,但最終證明他錯了,或者他只是「隨便亂講」。
楊教授的研究已獲得近 40 萬次引用,而他與諾貝爾獎得主 Geoffrey Hinton 於 2015 年發表的深度學習論文,更是科學史上被引用最多的論文之一。
主持這場訪談的是 Matt Keki 博士,他是一位科普作家,曾擔任歐盟數位大使。
——
深度學習的歷史與突破
主持人: 「教授,能夠訪問您真是我的榮幸。我第一個問題是關於您的研究,您的論文在 Google Scholar 上被引用超過 50 萬次。您與 Geoffrey Hinton 在深度學習領域的研究,為何能夠成為劃時代的突破?」
楊立昆教授: 「你應該是指 2015 年我和 Geoff 以及 Yoshua Bengio 在《Nature》上發表的論文。其實,這篇論文並不是全新的研究,而更像是一篇『宣言』或『綜述論文』,向科學界和研究人員介紹一組全新的技術,展示它的應用場景,並指引未來的發展方向。這篇論文標誌著深度學習開始被廣泛關注和推廣,但它本身並沒有包含新的研究結果。
真正的技術突破其實來自 1980 和 1990 年代的研究,那些才是被大量引用的核心論文。」
主持人: 「您還記得那個時刻嗎?當您的研究開始變得流行,甚至成為歷史上最受歡迎的研究之一時,您當時的感受如何?」
楊立昆教授: 「這其實發生了兩次。第一次是在 1980 年代末期,當我們開始使用多層神經網絡(multi-layer neural networks)取得良好成果時,這在當時被稱為深度學習(deep learning),並應用於圖像識別。當時我們無法識別複雜的影像,只能處理像是手寫字符這類的簡單圖像。但即便如此,這已經是一項了不起的進步。我當時非常興奮,因為我覺得這可能會徹底改變手寫辨識技術,甚至進一步推動計算機視覺(computer vision)和 AI 發展。
然而,到了 1990 年代中期,這項技術的研究熱潮開始消退。原因是我們需要大量數據來訓練模型,而當時並沒有互聯網,因此我們只能在少數應用場景中獲取數據,例如手寫識別、字符識別和語音識別。此外,當時的計算機非常昂貴,研究投入大,因此業界對這項技術的興趣逐漸減弱。
後來,隨著 2000 年代互聯網的興起,興趣又逐漸回升,並在 2013 年迎來爆炸性成長。2013 年是 AI 研究界的關鍵轉折點,人們開始意識到深度學習的強大潛力,並將其應用到許多不同的領域。2015 年又是一個新的推進點,AI 技術的發展速度大幅加快。」
主持人: 「我們今天是否已經推動 AI 發展到與人類匹敵的程度?未來 AI 是否會擁有像人類一樣的情緒,比如憤怒?」
楊立昆教授: 「不,我不認為現今的 AI 已經達到這種程度。目前的 AI 系統仍然非常愚蠢,我們之所以覺得它們很聰明,是因為它們擅長操控語言。然而,AI 其實並不真正理解物理世界,它們沒有我們人類擁有的那種『持久記憶(persistent memory)』,也無法真正推理和規劃。這些能力才是智慧行為(intelligent behavior)的關鍵特徵。
因此,我和我的團隊在 Meta AI(FAIR)和紐約大學(NYU)正在研究一種新型 AI 系統,它仍然基於深度學習,但我們希望它能夠理解物理世界、擁有長期記憶、具備推理與規劃能力。
在我看來,一旦我們成功打造這樣的 AI 系統,它們將會擁有類似人類的情緒,例如恐懼或興奮。」
因為那是對結果的預期,這些系統基本上會運作的方式是擁有一個我們設定給它們要達成的目標,我們會給它們目標去完成,然後它們會試著找出「我可以採取什麼行動來達成這個目標?」如果它們可以事先預測到這個目標會被實現,那會讓它們感到開心,如果你願意這麼說;或者,如果它們預測到這個目標無法達成,那就會讓它們不開心。因此,在某種程度上,它們會有情緒,因為它們能夠預期自己可能採取的一連串行動的結果。
但是,我們不會硬性賦予它們像是憤怒或嫉妒或類似的東西,或者是意識,或者是意識本身——但意識是另一回事,我們其實並不知道它到底是什麼。真的沒有明確的定義,沒有可以衡量的東西來告訴我們某個東西是不是有意識。即使我們觀察動物,我們可能都會同意,像猿猴、大猩猩這些靈長類動物是有意識的,也許大象也有,也許像這類的動物都有意識。
主持人: 那是Roger Penrose在我們訪談中所說的,所以你可能完全同意他的看法吧?
楊立昆教授: 是的,大概是這樣。但例如,狗有意識嗎?老鼠有意識嗎?意識的界線在哪裡?因為我們沒有一個好的定義,所以真的無法判定。
機器學習的三種範式
主持人: 說到這裡,關於「你曾說過 machine learning sucks」,現在有改變嗎?
楊立昆教授: 這就是我們目前正在努力的方向。
當你看現在 AI 的發展,我們正在朝著一種全新的方式來構建機器學習系統前進,讓它們能像人類和動物一樣高效地學習,因為目前還做不到。
我可以簡單講一下機器學習在過去幾十年中的發展歷程。事實上,機器學習有三種範式。第一種叫做監督式學習(supervised learning),這是最經典的一種。監督式學習系統的訓練方式是,比方說,你要訓練一個系統來辨識圖像,你會給它看一張圖片,比方說是一張桌子的照片,然後告訴它:「這是一張桌子。」這之所以叫做監督式,是因為你告訴它正確答案是什麼。系統會計算它的輸出結果,如果它說出來的結果不是「桌子」,那麼它就會調整自己的參數和內部結構,讓它的輸出結果越來越接近你希望的答案。
如果你不斷重複這個過程,給它大量的範例——桌子、椅子、汽車、貓、狗等等——最後這個系統就會找到方法來辨識所有你用來訓練它的圖片,甚至是它沒見過但和訓練圖片相似的圖片。這就是所謂的「泛化能力」(generalization ability)。
第二種範式是增強式學習(reinforcement learning),人們認為它比較接近人類和動物的學習方式。在增強式學習中,你不會告訴系統正確答案是什麼,而只是告訴它產出的答案是好還是壞。在某種程度上,這可以解釋人類和動物的一些學習方式。例如,你試著學騎腳踏車,一開始你不會騎,結果跌倒了,你知道自己做錯了什麼,所以你會調整策略。最終,你學會怎麼騎腳踏車。
但事實證明,增強式學習效率非常低。它在訓練系統玩西洋棋、圍棋或撲克等遊戲時效果很好,因為系統可以不斷和自己對弈上百萬次,微調自身;但在現實世界中就不管用了。如果你要用增強式學習來訓練一輛自駕車,它會撞上幾千次。如果要訓練一個機器人去學習如何抓取物品,增強式學習可以是解決方案的一部分,但絕對不是完整答案,因為它不夠好。
第三種學習方式叫做自監督式學習(self-supervised learning),這是促成近年自然語言理解和聊天機器人進展的關鍵。在自監督式學習中,你不是訓練系統去完成某個特定任務,而是訓練它去捕捉輸入資料的內部結構。
例如在文字處理上的應用方式,是把一段文字做某種程度的破壞,比如把某些字刪掉,然後訓練一個大型神經網路去預測那些缺少的字。
另一個特別的案例是,你把一段文字的最後一個字隱藏起來,然後訓練系統去預測這段文字的最後一個字。這就是大型語言模型(large language models)的訓練方式。每個 chatbot 都是這樣訓練出來的。
當然,技術上有些細節差異,但基本原理就是這樣。這就叫做自監督式學習。你不是為某個特定任務去訓練系統,而是訓練它去學習輸入資料本身的內部依賴關係。這種方法的成功是令人驚艷的,它的效果好到難以置信。
主持人: 你最後得到的系統,似乎真的能理解語言,並且如果你用監督式學習或增強式學習(supervised learning 或 reinforcement learning)去微調它們(fine-tune),它們就能好好地回答問題。這就是現在整個業界大家都在努力做的事情。但是,如果你想要一個系統去理解物理世界,這種模型就行不通,有些東西是缺失的。
楊立昆教授: 是的,因為物理世界要理解起來遠比語言困難。我們會認為語言是智慧的巔峰,因為只有人類能夠操縱語言。但結果證明,語言反而是簡單的,簡單的原因在於它是離散的(discrete),是一串離散的符號組成的序列。字典中只有有限數量的單字。你不可能訓練一個系統去「完全正確地預測」下一個字是什麼,但你可以訓練它產生出一個分數(score),或是對字典中每一個字出現在那個位置的機率(probability),透過這樣的方式去處理預測上的不確定性。
直覺物理與 AI 的挑戰
主持人: 但是,你無法訓練一個系統去預測一段影片中接下來會發生什麼。人們已經嘗試做這件事,我自己也嘗試了二十年。很多人都曾有這個想法:如果你可以訓練一個系統去預測影片中即將發生的事情,那麼這個系統就會在內在上理解這個世界的結構,也就是「直覺物理」(intuitive physics)——那些任何動物、甚至我們在嬰兒時期就學會的東西。
楊立昆教授: 對,直覺物理。舉個例子,你知道如果我拿起一個物體然後放開,它就會掉下來。你學會了這件事——你知道重力基本上會把物體吸引向地面。人類嬰兒大約在九個月大時就會學會這個概念。
或許今天 AI 發展的限制,不只是技術,而是來自我們對現實世界的理解。我們知道得不夠多,我們不知道重力是怎麼誕生的,我們也不知道量子世界是如何轉換成經典世界的。
但這是一個「簡單的問題」,因為你的貓或你的狗都能在短短幾個月之內學會有關重力的知識。貓尤其擅長這件事。牠們可以計畫出非常複雜的動作,爬上各種東西、跳來跳去,所以牠們對我們所說的「直覺物理」有非常好的理解。而我們目前還不知道如何用電腦重現這種能力。
原因之一,就是另一個所謂「Moravec 悖論」(Moravec’s Paradox)的例子。Hans Moravec 是一位機器人專家,他提出過這樣一個觀點:為什麼我們可以讓電腦下西洋棋、解數學謎題、做這些高度抽象的事情,但卻無法讓它們去完成動物輕易做到的物理任務?像是操縱物體、跳躍之類的事情。這就是 Moravec 悖論的另一個例子:電腦可以很容易處理離散物件與符號的空間,但現實世界卻太複雜了,而在一個領域中有效的方法,在另一個領域卻根本行不通。
一個你可以用來視覺化這件事的好方法是,透過我們感官——比方說視覺或觸覺——所接收到的資訊量,遠遠超過我們可以透過語言獲取的資訊量。這也許可以解釋,為什麼我們現在有大型語言模型(LLMs)、有聊天機器人,這些模型可以通過律師考試,可以解決數學問題,甚至可以寫出聽起來不錯的文章,但我們仍然沒有家用機器人,我們還沒有能夠完成像貓或狗能完成任務的機器人,我們也還沒有完全自動化的第五級自駕車。而且,我們當然沒有那種可以像一個 17 歲青少年一樣,透過大約 20 小時練習就能自學如何開車的自駕系統。
所以,很明顯我們缺少了某個很關鍵的東西。而我們缺少的,就是如何訓練一個系統,去理解複雜的感官輸入,比如視覺。如果我們想要讓機器像人類或動物一樣專業地學習,如果你想要機器具有與動物和人類類似的智慧、具有常識,甚至未來可能擁有意識,以及能夠真正解決複雜現實世界結構的能力,那麼我們就必須破解這個問題。
我們一直在為此努力。我來給你一個非常簡單的計算。一個典型的大型語言模型,通常是以大約 20 兆(20 trillion)個 token 進行訓練——20 兆,也就是 20,0000 億個 token。Token 基本上就像一個字詞,差不多的概念。一個 token 通常用大約 3 個位元組(bytes)來表示。20 或 30 兆個 token,每個佔 3 個位元組,總共大約是 10 的 14 次方位元組(10¹⁴ bytes),也就是 1 後面有 14 個零。這就是互聯網上所有公開文本的總量。
對於我們任何一個人來說,要讀完這麼多內容,得花上幾十萬年才做得到。所以,這是一個巨量的資訊。但是,當你把它跟我們大腦在生命最初四年中,透過視覺系統接收到的資訊量相比,結果差不多是一樣的。在這四年裡,一個小孩清醒的時間總計約為 16,000 個小時。透過視神經進入大腦的資訊量大約是每秒 2MB。你把它換算一下,總共差不多也是 10¹⁴ 位元組。也就是說,一個小孩在前四年裡所「看過」的資料量,跟最大的 LLMs 訓練所用的文字資料量差不多。
這件事告訴我們,我們不可能僅靠文字訓練就達成人類等級的人工智慧。我們必須讓系統學會理解真實世界。而要理解真實世界,是非常困難的。
AI 與熵的關係
主持人: 在你的 LinkedIn 和 Facebook 上,你曾提到「人工智慧與熵(entropy)」之間的關係。那個概念非常難懂。能否請你幫我們用簡單一點的方式解釋?
楊立昆教授: 好,我試著用簡單的話來解釋。這其實是我長期以來的一個執念。有一個很根本的問題,出現在計算機科學、物理學、資訊理論及很多不同領域裡,就是「我們該如何量化資訊?」——也就是,一則訊息裡到底有多少資訊。
我多次強調的一個觀點是:一則訊息所包含的資訊量,並不是一個絕對值。它取決於解讀這則訊息的人。你可以從感測器、一段話語或任何形式的訊息中提取出多少資訊,其實都取決於你用什麼方式去解讀它。所以,我認為「資訊可以被用絕對標準來衡量」這個觀點,很有可能是錯的。任何一種資訊量的衡量方式,都是相對於特定詮釋方式而存在的。這就是我當時想傳達的重點。
而這會帶來非常廣泛的影響。因為如果資訊沒有一個絕對標準,那麼物理學中很多觀念也就缺乏真正「客觀」的定義——像是「熵」(entropy)。熵,其實就是我們對一個物理系統狀態無知程度的量化。而這當然取決於你對這個系統了解多少。
所以,我一直對這件事著迷:試著去尋找一種相對性的方式來定義熵、複雜度或資訊量。
主持人: 你不覺得,我們用來訓練 AI 模型的全球資料庫,已經快用完了嗎?2000 年的時候,全球只有 25% 的資料被數位化;而今天,似乎所有資料都已經數位化了。
楊立昆教授: 不,我不這麼認為。我們還遠遠沒有達到 100%。有非常大量的文字知識還沒有被數位化。或許在很多已開發國家,數位化的進程很高,但絕大部分並不是公開的。舉例來說,有大量的醫療數據並不公開。此外,在世界上許多地區,有許多文化資料、歷史資料,既無法取得,也沒有數位化;即使有數位形式,也只是掃描檔,並不是可以讓機器直接讀取的文字內容。所以,並不是資料都用完了。我認為,還有非常多的資料仍然可以取得。
還有一個問題關乎於「現實本質」:例如,我們完全不知道「物質是如何在人的大腦中轉化為意識」的。我們手上根本沒有這方面的資料。你覺得未來我們能找到這個答案嗎?
我認為,我們不應該過於執著於意識這個問題。雖然我知道世界上很多人非常執著這個問題。坦白說,我覺得這有點像是一種迷戀現象(nippy phenomenon)。我認為,這也是我們到現在找不到一個好定義的原因。
我認為我們無法找到一個好的意識定義的原因,可能是因為我們沒有問對問題。讓我給你舉個例子,在 18 世紀,人們發現,17 世紀時,他們發現圖像在視網膜上形成的過程,光線透過眼睛進入,經過鏡頭,圖像在視網膜上是顛倒的。因此當時的人完全困惑,為什麼儘管圖像在視網膜上是顛倒的,我們還能夠看到正立的世界?那是他們的一個謎團,現在我們知道,這個問題本身是沒有意義的。我們如何理解自己,以及大腦如何解釋圖像,與圖像在視網膜上形成的方向無關。所以我認為意識有點像這樣,我們無法定義它,我們認為它存在,但無法確切指出它是什麼,這使我們成為個體。所以也許這就是不同之處,這是不同的。 當然,我的意思是,有很多因素使得我們每個人都彼此不同,我們有不同的經歷,我們學習不同的東西,對吧? 我們成長在不同的環境中,但我們的大腦也略微有所不同,我們每個人都稍微不同,這對於進化來說是必要的,以確保每個個體都不同,因為我們是社會性動物。因此,當同一部落中的不同人稍有不同時,這是一個很大的優勢,因為這意味著他們可以將自己的專業知識結合起來。如果我們每個人都完全相同,那麼群體的力量就不存在了。但因為我們是不同的,我們更強大,因為我們是多樣化的。所以這是進化的結果,這可以通過大腦的略微不同的連接方式,略微不同的神經遞質和激素等進行調節,這使得我們彼此不同。
主持人: 那麼關於抽象思維模型和推理自由的問題呢?我們能期待從你的實驗室看到這樣的東西嗎?
楊立昆教授: 關於從觀察中推演抽象表徵的問題,是深度學習的關鍵。深度學習的核心就在於學習表徵。事實上,深度學習的一個主要會議叫做國際學習表徵會議(International Conference on Learning Representations),是我與 Sheno 共同創辦的。所以,這告訴你,學習抽象表徵這個問題對於 AI 整體而言,對於深度學習特別是至關重要。
現在,如果你希望系統能夠進行推理,你需要另一組特徵。基本上,推理或計劃的行為,傳統上在 AI 中,不僅僅是在基於機器學習的 AI 中,而是自 1950 年代以來,通常是尋找問題解決方案的方式。例如,如果我給你一個城市清單,並要求你給我一個最短的迴圈,經過所有這些城市,你會思考並說,嗯,我應該從附近的城市出發,這樣我的總行程就會儘可能短。現在有一個所有可能路徑的空間,也就是所有城市排列的集合,對吧?所有你可以走過的城市順序,它是一個巨大的空間,像你的 GPS 等算法搜索路徑的方式是,它們在所有可能的路徑中搜尋,找到最短的那一條。所有推理系統都基於這個搜尋的理念,在所有可能的解決方案空間中尋找一個符合你目標的解決方案。所以當前系統的運作方式就是這樣。
所以目前系統的運作方式,呃目前的 LLMs(像是 O1、R1,以及其他一大堆模型)在做這件事的方式其實非常非常原始。他們是在所謂的「token 空間」裡進行操作,也就是在輸出空間裡。他們基本上讓系統產生大量不同的 token 序列,呃,多多少少是隨機產生的,然後他們有另一個神經網路在檢視這些假設的序列,挑出看起來最好的那個,然後再輸出那個結果。這樣的做法極度昂貴,因為它需要產生非常大量的輸出,然後再從中挑選出好的。而且,這不是我們思考的方式。
我們不是透過不斷產生大量、大量、大量的行動,然後再看結果,再決定哪個最好,來進行思考的。這不是我們的思考方式。如果我問你,比方說,「想像在你面前有一個漂浮在空中的立方體,好,現在把這個立方體繞著垂直軸轉 90 度。」好,你現在有一個轉了 90 度的立方體。現在,想像這個立方體,告訴我,它看起來跟你旋轉之前的立方體一樣嗎?答案是「是」,因為你知道立方體的性質就是,如果你把它旋轉 90 度,它仍然是立方體,你仍然是從同一個視角在看它。
主持人: 你意思是說這是一種自由推理的錯覺嗎?
楊立昆教授: 嗯,你現在正在做的是在你的心理狀態中推理,而不是在你的「輸出行動狀態」或「行動空間」中推理。在物理世界裡,或者在你最終輸出狀態的那個空間裡,你不是那樣進行推理的。你是在一個抽象空間中進行推理。我們的大腦中有這種對世界的心理模型,這讓我們能夠預測世界上將會發生什麼事情、操控現實、提前預測我們行動的後果。如果我們可以預測行動的後果(例如把一個立方體轉 90 度會發生什麼),那麼我們就可以計劃一連串的行動,來達成特定的目標。
所以,每當我們有意識地完成一個任務時,我們的整個心智都是集中在上面的。我們會思考:「我需要進行什麼樣的行動序列,才能組裝這件宜家家具?」或是「要怎麼用木頭做出這個東西?」又或是「基本上做任何事情。」我們每天做的任何需要動用腦袋的事,本質上都是這種類型的任務,我們都需要計劃。而且大多數時候,我們是「階層式計劃」的。 我舉個例子,你總有一天要回 Raza,對吧?假設你現在決定從紐約回到 Raza。嗯,你知道你需要去機場搭飛機。
那麼你就有了一個子目標:「去機場。」這就是階層式計劃的概念。你會為最終目標定義出子目標。你的終極目標是「回到 Raza」,你的子目標是「去機場」。那你要怎麼去機場?嗯,你現在在紐約,所以你要下樓到街上,搭計程車去機場。那麼你要怎麼下樓到街上?你得離開這棟大樓,走到電梯口,搭電梯下樓,離開建築物。那麼你怎麼去電梯?你需要站起來,走到門口,開門等等。最後,你會將目標分解到足夠小的層級,小到你不需要計劃就能直接執行——像「從椅子上站起來」,你不需要計劃,因為你已經非常熟悉如何做這件事,你可以直接去做,你已經擁有了完成這件事所需的一切資訊。
所以,這種「智能系統需要進行階層式計劃」的概念是極其重要的。問題是,我們今天完全不知道怎麼用機器來做到這件事。這將會是未來幾年最大的挑戰之一。
未來十年:機器人的時代
主持人: 這也是為什麼你在達沃斯花那麼多時間討論機器人?你提到了「機器人領域的來臨十年」。機器人這個領域經歷了無數次寒冬,為什麼這次會不同?
楊立昆教授: 嗯,機器人現在當然已經被廣泛使用了,但目前被用在的任務都是相對簡單、可以用非常簡單方式自動化的任務。
所以,當感應不需要那麼複雜時,嗯,像是製造機器人,這些機器人負責在工廠裡噴漆汽車,組裝零件之類的,只要一切都在正確的位置,這些機器人基本上就只是自動機。但是,讓我們看看另一個任務,比如駕駛。像自駕車這樣的機器人,或者有駕駛輔助功能的汽車也是一種機器人。現在我們還沒有像人類一樣可靠的自駕車。
我意思是說,我們確實有,但是它們,像是 Waymo 和其他類似的公司,它們有時會有些「作弊」,它們使用的感應器比人類的感應器更先進。馬斯克曾說過,特斯拉會在接下來的五年內達到五級自駕,這是他在過去八年裡一直說的,他說「這會在明年實現」,但顯然它並沒有實現。所以,嗯,顯然你應該停止相信他在這方面的說法,因為他一直是錯的,無論是因為他認為它是對的,結果卻是錯的,還是他只是在撒謊。我覺得這可能是一種方式,讓他激勵他的團隊,讓他們年復一年地朝著達成不可能的目標努力。
主持人: 但是,我認為對於一位工程師或科學家來說,被告知「你整個職業生涯都在致力於解決的問題,我們明年就會解決」,其實是非常困難的。你認為,這是我們這個時代面對的最大挑戰,將 AI 與機器人技術、感應器整合嗎?
楊立昆教授: 如果我們能夠建造出能夠理解物理世界、擁有持久記憶、可以進行推理和計劃的 AI 系統,那麼我們將擁有支持機器人的 AI 基礎,這些機器人會比現在的機器人更加靈活。所以,過去一兩年,已經有很多機器人公司成立,這些公司製造類似人類的機器人,並且他們的演示非常令人印象深刻,但這些機器人其實非常愚笨,它們無法做到人類能做到的事情,不是因為它們沒有足夠的物理能力,而是因為它們的智能還不足以應對現實世界。因此,這些公司大多依賴 AI 在未來三到五年內能取得快速的進展,這樣當它們準備好大規模銷售和製造這些機器人時,這些機器人會變得足夠聰明,因為 AI 將會有所進步。這是一個巨大的賭注。我無法告訴你是否會在未來三到五年內發生,但很有可能我們會在接下來的十年內在 AI 領域取得顯著進展,這將使我們能夠打造更靈活的機器人,這也是為什麼我說下一個十年將是機器人的十年。
主持人: 當你今天回顧 AI 的發展,日復一日、夜以繼日的進展,你會感到驚訝嗎?
楊立昆教授: 不,並不驚訝。不過,讓我感到驚訝的是,這種進展是非常不連續的。事實上,1980年代和1990年代有很多進展,然後就停滯了,直到2000年代又有一些進展,但大多數人沒有注意到,我們其實是在進步。然後大約在2013年左右,當這些進展變得可見時,整個領域爆炸性增長,突然間很多聰明的人開始投入這個領域,許多公司也開始投資,興趣也大大增加。現在的進展已經在加速,因為有更多的投資,更多聰明的人開始投入。
開放研究與 AI 的進步
主持人: 但是我本來以為,從1980年代以來的進展會是更為持續的。今天,整個世界都在談論新的中國模式,嗯,關於深度學習,開源,這些比美國的便宜多了。你不覺得「馬已經跑出馬廄」了嗎?你怎麼看待這個問題?
楊立昆教授: 嗯,有些事情需要非常清楚地解釋。如果一項研究或開發成果被發表,這項技術的使用方法也會在論文、白皮書報告或其他形式中公開。如果代碼是開源的,那麼全世界都能從中受益,不僅僅是生產這些成果的人或團體。這些人或團體會獲得聲望,認可,也許還會有投資等等,但最終,整個世界都能從中受益。這就是開放研究和開源軟件的魔力。Meta,嗯,我自己,以及Meta整體來說,一直是開放研究和開源的堅定支持者,當任何實踐開放研究和開源的實體生產出某些成果時,整個開源社群也會從中獲益。所以人們似乎把這看作是競爭,但其實不是,它更像是合作。問題是,我們是否希望這種合作是全球性的,我的答案是肯定的,因為世界各地都有很好的創意來自各個地方。舉個例子,Llama,這是Meta推出的第一個模型,嗯,這不是第一個LLM,之前也有過LLM,但它們當時有點低調。這個模型是在我們巴黎的實驗室中開發的。這不是我10年前創建的東西。這是巴黎的Fair實驗室,他們有超過100位研究人員在那裡工作,所以巴黎實驗室產出了很多很好的成果,蒙特利爾實驗室也產出了很多優秀的成果。全球的研究社群是非常廣泛的,每個人都在貢獻,沒有哪個實體能擁有創意的壟斷,這就是為什麼開放合作能讓這個領域更快速進步的原因。我們之所以大力支持開放研究和開源,是因為當科學家們互相溝通時,整個領域會更快進步。
現在,業界裡有些公司曾經做開放研究,後來卻不再公開。OpenAI就是這樣,而Anthropic從來不開放,他們保持一切機密。Google曾經部分開放過,但現在轉為部分封閉,像是它們並沒有公開Gini背後的所有技術。它們依然進行許多開放研究,但這些研究更多是基礎性長期的。所以,我覺得這很遺憾,因為有很多公司基本上將自己排除在全球的研究社群之外,不參與、不貢獻於進步。AI在過去10年能進步這麼快,正是因為開放研究,你必須意識到每個人都認同這一點。哦,當然,這是一個事實,不只是我的觀點,這是事實。
讓我舉個例子,幾乎整個AI產業在構建系統的研究和開發階段,使用的軟件叫做PCH。PCH是開源的,最初是由Meta的同事在Fair實驗室開發的,幾年後,它的所有權被轉交給了Linux基金會。Meta不再擁有它,儘管它仍然是主要貢獻者,但它不再控制它,而是由一個開發者社群來控制。整個產業都在使用它,包括OpenAI、Anthropic,Google有自己的一套,但包括微軟、Nvidia,所有人都在使用Pytorch,整個學術界也都在使用Pytorch。我想在所有發表的學術論文中,大約有70%的論文都提到了PCH。所以,這告訴我們的是,AI的進步是建立在彼此工作的基礎上,這就是科技進步的方式。如果沒有PCH,那也許美國的某些「星際大門」計畫會改變一切,對吧?
主持人: 好了,讓我再說一點關於Deepseek的事。這是很好的工作,參與這項工作的人的確有很好的想法,他們做了一些非常好的工作。這不是中國第一次做出非常創新的工作,我們很早就知道這一點,特別是在像計算機視覺這樣的領域。
楊立昆教授: 我的意思是,中國在大型語言模型(LLM)上的貢獻是比較近期的,但在計算機視覺領域卻有著悠久的傳統。你看看計算機視覺領域的頂尖會議,一半的與會者都是中國人。他們那裡有非常優秀的科學家,非常聰明的人。因此,無論是美國、歐洲還是世界其他地區,都不擁有創意的壟斷。那麼來自Deepseek的創意,很可能在幾周內就會被複製出來,並且可能會被整合進未來美國、歐洲或中東等地的機構所推出的版本中。現在,這些創意已經成為了世界知識的一部分,這就是開放源代碼和開放研究的美妙之處。它在產品層面是競爭,但在基本方法層面,它不是競爭,而是合作。
現在讓我們談談美國 Stargate,嗯,所有涉及AI的公司都在看到一個不遠的未來,屆時數十億人將會每天使用AI助手。我現在戴著一副眼鏡,不知道你能不能看到,這副眼鏡上有相機,是Meta製造的。你可以和它對話,裡面有一個助手,你可以向它提問,甚至還能要求它通過相機識別植物的種類等等。所以我們看到的未來是,人們將會佩戴智能眼鏡,或者使用智能手機或智能設備,基本上在他們的日常生活中時時刻刻都在使用AI助手。這些助手會幫助他們的日常生活。 這意味著,將會有數十億的用戶使用這些AI助手,每天多次使用,而這就需要一個非常龐大的計算基礎設施,因為運行一個LLM或AI系統(不管它是什麼)並不便宜,因此你需要大量的計算能力。大部分的投資,所以,Meta今年將會投資大約600億到650億美元在基礎設施上,主要是為了AI。 微軟已經宣布他們將投資800億美元,而Stargate的目標是5000億美元,但這是分5到10年來進行,我們也不知道這些錢從哪裡來。 所以,這些投資的規模大致相當,實際上並不比微軟和Meta目前所做的事情有多大區別,且大部分投資是用於推理(inference),也就是運行AI助手來服務數十億人,而不是用來訓練大型模型。訓練其實是相對便宜的。 所以我認為,金融市場的反應,比如最近幾天我們看到的反應,對於Deepseek的出現表示“現在我們可以更便宜地訓練系統,這樣我們就不需要那麼多計算機了”,這是錯誤的。訓練可能會變得更加高效,但結果是我們將訓練更大的模型,最終,大部分的基礎設施和投資是用來運行這些模型,而不是訓練它們,這才是投資的重點。
主持人: 我有一個觀眾的問題:你提出了一種替代Transformer架構的方法,而Transformer是LLM中最重要的部分。Jaa World模型與Transformer有什麼不同,為什麼你認為世界模型是未來的趨勢?你稍微提到了這一點,但主要集中在gpath上。
楊立昆教授: 好,這裡有一個架構,實際上應該稱為宏觀架構,叫做Jepa(聯合嵌入預測架構)。它不是Transformer的替代品,因為你可以在Jepa內部使用Transformer。Jepa是一種宏觀架構,您可以在其中安排不同的模塊,這些模塊可以是Transformer,也可以是其他東西,這取決於您的需求。所以它們是正交的概念,它們並不是對立的。如果你想的話,Jepa所替代的是那些沒有共同名稱的東西。
基本上,當前大多數大型語言模型(LLM)的架構在業界稱為自回歸解碼器架構(auto-regressive decoder-only architectures),或者稱為Transformer架構,或者像OpenAI所稱的GPT(通用變壓器)。GPT是一種特殊的架構,通過我之前提到的自監督學習技術進行訓練,這樣的系統會從一串符號(例如文本,一串單詞)中學習。這個系統的組織方式是,為了預測某個輸入的單詞,它只能查看左邊的那些單詞。這被稱為因果架構(causal architecture),如果你訓練一個系統,讓它將一段文本作為輸入並訓練它重現該文本,實際上你就是在訓練它預測文本中的下一個單詞。然後,你可以在訓練完成後使用該系統來自回歸地生成一個單詞接一個單詞,這就是當前語言模型的工作原理。
但將這種方法應用於現實世界中就有問題了,因為如果你想訓練一個機器人來進行計劃或預測現實世界中會發生的事情,這種方法就不太管用。如果你用視頻幀來代替單詞,將視頻幀轉換成像單詞一樣的標記,然後試圖訓練系統預測視頻中會發生的事情,這樣做效果不好,並且很難實現。原因在於,現實世界中有很多事情是無法預測的,而表示無法精確預測某些事情的事實,在高維空間中(例如視頻)是數學上無法處理的問題。這在離散空間中(如文本)是可能的,你無法預測一段文本中接下來會出現什麼單詞,但你可以預測所有可能的單詞的概率分佈。我們現在還不知道如何對視頻進行這樣的操作,也不知道如何表示所有可能視頻幀的分佈。因此,針對文本有效的技術(例如DNA序列和蛋白質序列的技術)在視頻或其他自然信號中無法奏效。
Jepa(聯合嵌入預測架構)正是對此問題的回應。其主要思想是,與其在輸入空間中做預測,不如訓練系統學習輸入的抽象表示,然後在這個表示空間中進行預測。這證明是一種更有效的問題表述方式。例如,如果我拍攝一個房間的視頻,並將相機對準一個位置,然後慢慢轉動相機,最後停止,我要求系統預測視頻接下來會發生什麼。系統可能會預測相機會繼續轉動,但無法預測在相機旋轉後,視野中會出現什麼細節。比如,視野中可能會有一盆植物,牆上可能有一幅畫,也許有人坐在那裡,但系統無法預測這些人的模樣,無法預測植物的物種,也無法預測地板的紋理等,這些都是無法預測的。因此,如果你訓練系統做這些預測,它會花費大量的資源去預測無法預測的事情,最終會失敗。
至於Yan LeCun實驗室的成就,很難直接說出具體的指標。讓我自己被廣為認識的是卷積神經網絡(CNN),這是一種特別的架構,靈感來自於視覺皮層的結構,旨在處理像圖像、視頻、音頻和語音等自然信號。這些系統在各個領域都有廣泛應用。例如,如果你有一個駕駛輔助系統在車輛中,現在幾乎所有賣給歐盟的車輛都必須配備這樣的系統,至少需要有一個能夠自動剎車的系統。
當有障礙物在它前面時,那就是你的實驗室,它正在使用商業神經網絡,這些都是我的發明,從1988年開始,這已經是很久以前的事了,所以這就是我最有名的地方。最初的應用是字符識別、手寫識別、閱讀郵遞區號、閱讀支票上的金額等等,這些都是在90年代初期。然後,自從2010年左右以來,這些應用迅速增長。
歐洲在 AI 競爭中的角色
主持人: 當你和你的手機對話時,語音識別系統的神經網絡前幾層通常使用卷積神經網絡。當你在手機上有一個應用程式,可以拍攝一張植物的照片,然後問應用程式這是什麼植物的物種,或者聽鳥的叫聲並告訴我這是哪種鳥的物種時,這些應用都基於這些技術。那麼在美國與中國之間的人工智慧競爭中,歐洲處於什麼位置呢?
楊立昆教授: 我認為歐洲扮演著非常重要的角色,因為歐洲在實施規範方面有最困難的挑戰,確實,歐盟面臨著這類問題。例如,我現在戴的眼鏡,這其中的一個應用是解讀通過相機拍攝的圖像,這樣你可以看一看波蘭語的菜單,或者我可以聽你用波蘭語與我對話,然後自動進行菜單的翻譯。這個未來其實在這些眼鏡中已經可以實現,只不過眼鏡還沒有上市,眼鏡在歐洲有售,只是視覺功能因為規範的不確定性而無法使用,甚至無法確定這樣的規範是否會使其變為非法,只是還不清楚。
但是讓我說,歐洲擁有很多優勢,首先是人才,程式設計師、物理學家、數學家、計算機科學家、工程師等等,許多頂尖的AI科學家,無論他們在哪裡工作,都是來自歐洲,我就是其中之一。我來自歐洲,我現在住在紐約,但我花了很多時間在巴黎。
主持人: 最後一個問題,我需要問您。我記得在一次記者會上,我問過Jeffrey Hinton一個問題:如果您能回到過去,您會做出不同的選擇嗎?有沒有什麼是您對自己在AI發展中的研究感到後悔的地方?我想問您同樣的問題。我不知道Jeff對這個問題的回答,但我可以猜到他會怎麼回答。可能是“不”,我想。
楊立昆教授: 讓我先給您我的回答。對我來說,長期以來,我對我們現在所說的自監督學習不感興趣,因為我認為這個問題被表述得不好。事實上,我曾經與Jeff Hinton討論過很多年,我當時推動的是監督學習,而他告訴我,最終我們需要弄清楚如何做他所說的無監督學習,這就是現在所說的一種特殊形式的自監督學習。我大約在2000年代中期才改變了這個看法,這大概已經晚了十年。因此,我本應該早點對這個問題產生興趣。
但是問題是,在90年代中期到2000年代初期,神經網絡和深度學習方面並沒有太多進展,因為整個世界對這個領域完全不感興趣。所以我們不得不做一些其他的事情。我曾經研究過一些其他的領域,我研究過圖像壓縮,開發過一個叫做djvu的系統,我聽說這個系統在波蘭非常受歡迎,事實上在東歐地區普遍受到歡迎。
所以,我認為這是我會做得不一樣的地方。除此之外,我對事情的發展還算滿意。如果能在90年代末期的時候,更加積極地保持社群對神經網絡和機器學習的興趣,可能會更好,這樣就不會有那種“AI寒冬”了。
我猜Jeff可能會回答的其中一個觀點是,他兩年前有所改變,他過去的職業追求是要搞清楚大腦皮層的學習算法。他一直認為反向傳播(backpropagation),即我們現在用來訓練神經網絡的主要技術,與他有關,也與我有關。
他一直認為這並不是大腦所使用的方式,因為反向傳播並不完全符合大腦的運作方式,而大腦應該是使用其他方法。反向傳播並不是從生理學上來看最合理的,因此他在過去四年中每兩年就會提出一種新的機器學習方法。兩年前,他放棄了,他說,也許大腦不使用反向傳播,但反向傳播確實運作得很好,也許這就是我們需要的,也許它甚至比大腦使用的任何方法都更有效。所以他突然有所領悟,然後就退休了,基本上他可以宣布自己取得了勝利。
深度學習在醫學中的應用
主持人: 我的最後一個問題是,為什麼您會支持來自紐約大學的波蘭裔美國創業公司,這家公司利用AI進行乳腺癌預測,您是他們的董事會成員並擔任顧問對吧?
楊立昆教授: 首先,深度學習在醫學應用方面極具前景,這方面已經有很多部署案例,包含像乳腺癌的診斷,通過乳腺X光檢查等方法。我的一位年輕同事,他曾在我們的實驗室工作過,現在在醫學院的放射科擔任教授,他叫Christo Gas,是位非常優秀的人。最近他告訴我,他發現有太多機會,所以決定與幾個朋友共同創辦一家創業公司。他們來找我,問我是否願意擔任顧問。我知道他們的科學工作非常好,所以我認為這家公司非常有潛力,我也非常好奇他們能做出什麼成果。
他們的應用範圍非常廣泛,基本上是利用深度學習進行診斷,特別是在影像學方面,但他們的目標不僅僅是診斷,還希望能從測量數據直接進行治療。我覺得這個方向非常有前途,也讓我感到非常吸引人,這就是為什麼我支持這家公司。
謝謝您,教授,非常感謝您抽出時間來參加這次訪問,能夠與您共度時光是我們的榮幸。