原文連結: 九年內實現AGI?OpenAI的Dan Roberts暢談模擬愛因斯坦的推理之路

Dan Roberts 嗯,曾是Sequoia團隊成員,過去兩年半、三年來一直向我們宣傳關於推理的理念。我們曾面對面坐了大約一年到一年半,我從Dan身上學到很多。我真的很高興你能更廣泛地分享。 我來分享一個回憶,就是去年的AI Ascent。他當時正要離開Sequoia去OpenAI。他沒告訴任何人,一直保密。這可是相當重要的資訊。我們當時請了Alfred和Sam上台談話,然後Alfred說:「喔對了,順帶一提,Dan要去OpenAI了。」我看到了他的表情。 他呃,相當尷尬。很高興你已經度過那段時期,並與我們分享一些關於呃,推理的見解。是的。嗯,我想你呃,用了我本來要用的開場白。所以,我就直接進入主題了。呃,所以,呃,許多人都知道,去年九月,OpenAI發表了一個名為01的模型。 這是我從我們部落格文章擷取的,嗯,讓我講重點。這裡的Y軸,抱歉給你們看機器學習輸出的圖表,但呃,Y軸是某種數學推理基準的表現,而X軸才是重點。所以左邊的圖表顯示,當我們訓練模型時,隨著訓練時間運算量的增加,模型表現會提升。 這是每個訓練AI模型的人都熟悉的事情。真正令人興奮的是右邊這張圖,它顯示模型在測試時運算(test time compute)方面也有所提升。我們教它去呃,推理,它會花一些時間思考,然後思考的時間越長,進步就越多。 而且你知道,這裡很熱,同時這件事也非常重要,重要到我們把它印在T恤上,像是,這是一個全新的擴展維度,不僅僅是訓練,也關乎測試時的表現。所以,嗯,好吧,這代表什麼?所以我們有一個會思考的模型。

思考實驗:從量子電動力學到03模型

讓我們來做個思考實驗。這是上個月我們發布的03模型,一個推理能力更強的模型。我的背景是物理學。所以,所以你可以問模型一個物理問題。這是量子電動力學。它也能看見。所以有人在那張紙上提出一個問題。 你可能看過這些模型。它,這就是它在測試時會做的事情。它可以思考事物,可以迭代,可以放大檢視。那張紙上有個費曼圖,你知道,這是一種表示這些計算的方法,然後它會再思考一下,然後你知道,它開始並回答問題,最後它答對了,大概花了一分鐘。 呃,順帶一提,在我同事們發布這篇部落格文章之前,有位同事請我檢查這個計算,結果花了我大約3個小時,儘管這個計算在我擁有的四本教科書中都有,我還是得追溯它所做的每一步,確認所有負號都正確,並驗證我得到正確答案。

模擬愛因斯坦:一項思想實驗

好吧,我們能做什麼?我們可以思考大約一分鐘,然後做一些非常酷的計算。但是,嗯,我們想去哪裡呢?嗯,讓我們想像一下。讓我們做一個思想實驗。誰會做思想實驗?Albert Einstein。所以,讓我們來做一個關於Einstein的思想實驗。 嗯,讓我們想像回到1907年,在他開始研究廣義相對論之前。然後我們問他廣義相對論的期末考題。呃,GPT-4.5實際上編造了這個問題,但我可以證實這是一個你可能會問的有效問題。而且,你知道,我們是OpenAI,所以我們不會問Einstein。 我們會問Einstein v1907-super-H high版本,你知道,確保我們得到最大的推理努力,而我們也確實會得到最大的努力。所以Einstein,我想他是一位視覺型思考者。關於電梯和自由落體的某些概念。這是你學習廣義相對論時會學到的,然後你會做一些計算,嗯,還有橡皮膜和球的比喻,看來他一度被量子力學分心了。 我們的模型也會分心。就是這樣。這看起來像是,你知道,開始接近黑洞了。我也不知道為什麼他在所有這些情境中都會想到自己。然後就是這樣。這就是我想要的,類似蟲洞那種黑洞的東西。那是正確答案。 呃,結果GPT-4.5無法得到這個正確答案。我們需要03模型。呃,03模型成功了。我想我在OpenAI的角色主要就是檢查物理計算,而不是AI研究。但是好吧,重點是,它得到了正確答案,或者說Einstein會得到正確答案,而且呃,他大概需要八年時間來解決這個問題,或者說,我的意思是,你知道,他會發現,而這就是八年後發生的事,他發現了廣義相對論。 他就能回答這個問題了。所以我們的模型現在思考一分鐘,就能重現教科書上的計算及其微擾,但我們希望它們能對人類知識和科學的現狀做出重大貢獻。

擴展之路:強化學習的角色

所以,嗯,回到這張圖,呃,我們如何達到目標?嗯,現在讓我們關注左邊的圖。 嗯,模型的表現會隨著我們訓練的越多而提升。而我們所做的訓練是RL,也就是強化學習。所以,我這次演講主要想傳達的是,我們希望將其規模化。呃,一年前我們推出了GPT-4O。當時使用了運算資源,而且全部都是預訓練運算,正如你可以想像的,然後我們開始做這件導致測試時運算的事情。 所以我們為01模型增加了一些強化學習運算,RL運算。我應該說,這全是示意圖,但呃,你知道,方向上是正確的。03模型或許有更多一點RL運算。在未來的某個時間點,或許我們會有大量的RL運算,然後在更遙遠的未來,或許我們會完全被RL運算所主導和淹沒,所以,這,這我認為算是一種逆向觀點,像是,這就是我們前進的方向,而且我們是認真的。 呃,為了強調這點的逆向特質,呃,這是一些追蹤AI研究的人會知道的,這是Yann LeCun多年前製作的一張投影片,我猜是2019年,根據版權所示,嗯,我顯然是借用了這張圖。嗯,這是一張複雜的投影片,可能很難理解,幸運的是,我們有模型可以幫我們總結。重點是,預訓練就像這個大蛋糕,而強化學習應該是頂端的那顆小櫻桃,而且,呃,你知道,這基本上就是這張圖所表達的。 顏色配置其實是偶然的,但我認為效果非常好。而且,你知道,這就是我們前進的方向。我們想要,我們想要完全顛覆這個迷因。呃,呃,你知道,我們可能有同樣大小的蛋糕,而我們只想用巨大的強化學習櫻桃把它壓垮。呃,好吧。

OpenAI的計劃:擴展運算與規模化科學

那麼,我們的計劃是什麼?嗯,嗯,不能告訴你們我們的計劃。我把投影片寄過去,然後呃,公關團隊把所有內容都塗黑了。呃,事實上,我應該說我有點擔心他們會把這張「已塗黑」的投影片也涂黑,但幸運的是,呃,我寄給的Brianna人很好,嗯,所以一切都,你知道,都很好,事實上,你知道我們的計劃是什麼,就像,我們的計劃,我想我們其實說得很清楚了,我們正在擴展運算能力。所以,這代表什麼?我們要募集5000億美元,我們要在德州的Abilene買些地,蓋些建築物,嗯,在裡面放些電腦,這裡有些人我們早些時候談過,或許會幫我們做這件事,然後,你知道,我們要訓練模型,希望從中獲得大量營收,然後再蓋更多建築物,在裡面放更多電腦,以此類推。 所以我們正在擴展我們的運算能力,呃,與此同時,我們也希望,我們也希望,嗯,發展規模化科學(scaling science),而這,這就是我在OpenAI做的事情。這,或者說這是我思考的事情之一,這張圖是來自我們GPT-4部落格文章。它在我加入之前就有了,但我認為它真的非常鼓舞人心且令人印象深刻,這個,這裡下面的這個點是GPT-4的最終損失表現。 這些點是他們在此過程中做的實驗,這是對數尺度,所以它們的規模小得多,而這條虛線是預測。所以,所以他們精準預測了,對吧?所以,他們著手訓練這個比任何人都見過都要大的模型,而且他們確切知道它會做什麼。 現在我們有了測試時運算和,和,嗯,強化學習訓練這些新方向,我們必須拋棄一切,重新定義應用,嗯,你知道的,擴展運算的意義。嗯,所以我們正在擴展,我們正在擴展,我們需要規模化科學,因為我們希望成為規模化科學。

從「學者症候群」到真正的發現

呃,這是播客主持人Dwarkesh Patel提出的一點,我們目前的模型感覺有點像學者症候群患者(idiot savants)。它們,它們不知道,它們並沒有在發現廣義相對論。嗯,而且,呃,我不知道,為什麼,為什麼會這樣?嗯,可能是我們問的問題類型不對。 我們在研究中做的很多事情,都是關於,你知道,你問問題的方式比過程和答案更重要。所以,你知道,我們需要真正把問題問對。另一個,另一個問題你可能會說是,我們訓練了太多競賽數學問題,然後,或許我們的模型在不同事物上表現得參差不齊。 我想在這些情況下,你都會得到整數,或許有點不夠令人滿意。嗯,但我認為真正會發生的事情是,我們正在擴大規模。嗯,我們需要進一步擴大這個規模,而且當我們做到時,那將會非常棒。

未來展望:九年後的突破

嗯,最後,這是關於接下來會發生什麼。所以下次在AI Ascent上,我去年也在這裡。希望,很希望能再來。事實上,這很容易,因為我想Constantine有這張圖。他有這張圖的非半對數Y軸版本。但是你知道,所以這是代理(AI)可以完成的任務長度的指數級增長,或者說是AI可以完成的。 它每七個月翻一倍。所以看起來根據這張圖,它們可以完成大約一小時的任務。或許明年我們會在哪裡?它們將能完成大約,嗯,兩個到兩個半小時,介於兩到三小時之間的任務。呃,你知道,在AI領域做預測是很危險的。每個人總是錯的,但也許,也許我可以在這裡外推一條線。 所以你知道,呃,我們想要什麼,我們在談論Einstein那八年的思考,所以八年,然後從現在開始要達到那裡,我們需要大約16個倍增週期。所以這意味著,我想重點是,九年後,我們將擁有一個能夠發現廣義相對論的模型。 嗯,所以,是的,謝謝各位。[掌聲]