原文連結: 實體圖靈測試:Jim Fan 談 Nvidia 的具身 AI 藍圖

接下來,有請 Jim Fan。各位都認識他。上來吧,Jim。Jensen 今天早上才剛提到他。他不僅是 NVIDIA 的 AI 主管,也是一位傑出的研究科學家,他將為我們講述實體 AI。

實體圖靈測試的提出

幾天前,我看到一篇部落格文章吸引了我的注意。 它寫著:「我們通過了圖靈測試,但沒有人注意到。」嗯,圖靈測試過去被視為神聖的,對吧?它是電腦科學的聖杯,對吧?也就是說,你無法分辨一段對話是來自人類還是機器。然後,事情就這樣發生了,我們達成了。我們就是達成了。 你知道嗎,當 O3 Mini 需要多幾秒鐘思考,或者 Claude 無法調試你那些討厭的程式碼時,人們會感到沮喪,對吧?然後我們對每一個大型語言模型的突破都聳聳肩,認為這不過是又一個普通的星期二。在座的各位是最難打動的觀眾。所以我提議一個非常簡單的東西,叫做實體圖靈測試。

實體圖靈測試的設想

這個想法是這樣的,對吧?你在週日晚上舉辦了一場黑客松派對,結果就變成這樣。你的伴侶對你大吼大叫,你心想:「啊,該死。星期一早上,我要叫人把這爛攤子收拾乾淨,並為我做一頓非常棒的燭光晚餐,好讓我的伴侶開心。」 然後你回到家看到這個景象,你無法分辨這是人類做的還是機器的傑作。對吧?夠簡單吧。實體圖靈測試。

目前的進展與挑戰

但我們現在在哪裡呢?我們接近了嗎?嗯,看看這個準備上班的 Cumul 機器人。它沒成功,對吧?那我們的狗和香蕉皮呢?啊,是的。 還有指示機器人,你知道的,為你做早餐麥片。嗯,它正確識別了牛奶。我給它一個減分,對吧?它是好意的。哦,它用湯匙餵你。這是 VIP 體驗,對吧?看看那個。我嫉妒了。我沒有人用湯匙餵我。是的,這就是我們目前的狀況。

為何實體圖靈測試如此困難?

那麼,為什麼解決實體圖靈測試這麼他媽的難?你們知道大型語言模型的研究人員很愛抱怨,對吧?他們抱怨很多。 最近,有個叫 Ilia 的人抱怨。他說,大型語言模型的預訓練數據快用完了。他甚至稱網際網路為 AI 的「化石燃料」。他說我們快沒有數據來訓練大型語言模型了。嗯,只要和機器人學家待一天,你就會知道大型語言模型的研究人員有多麼被寵壞了。我們連化石燃料都得不到。

這是在 NVIDIA 總部進行的一次數據收集。NVIDIA 有個咖啡廳,我們在那裡設置了這些人形機器人,我們操作它們並收集數據。這就是數據的樣子,對吧?機器人的關節控制訊號。這些是隨時間變化的連續值。 你無法從網際網路上抓取這些數據。你在 Wikipedia、YouTube、Reddit 或任何地方都找不到它。所以你必須自己收集。

數據收集的困境:遠端操作

我們如何收集呢?我們有一種非常複雜,但也非常昂貴的方法,叫做遠端操作。嗯,你可以讓人戴上類似 VR 頭盔的東西,它可以識別你的手部姿勢並將其傳輸給機器人。 透過這種方式,你可以教機器人做什麼,比如從烤麵包機裡拿起麵包,然後在上面淋上蜂蜜。但你可以想像這是一個非常緩慢且痛苦的過程,對吧?所以如果你把它放到擴展圖上,基本上它根本無法擴展。真實的機器人數據是「人力燃料」。它比化石燃料更糟。 你在燃燒人力燃料。更糟的是,每個機器人每天最多只能運作 24 小時。事實上,你會得到比那少得多的時間,因為人類會累,而機器人比人類更容易累。這就是你得到的,那該怎麼辦呢?如何打破這個障礙?機器人學的核能在哪裡?我們必須擁有清潔能源。 不能永遠依賴化石燃料。

解決方案:模擬的力量

進入模擬的世界。我們必須離開物理世界,然後在模擬中做些事情。所以我們訓練了這個機器手在模擬中完成超乎人類的靈巧任務,比如轉筆,嗯,對我來說它是超乎人類的,因為我不會轉筆,而且我很久以前,童年時期就放棄了,我很高興我的機器人至少在模擬中能比我做得更好。

模擬的原則:Sim 1.0 數位分身

我們如何訓練機械手完成像這樣複雜的任務?有兩個想法。第一,你必須以比實時快 10,000 倍的速度進行模擬。這意味著你應該在單個 GPU 上平行運行 10,000 個環境進行物理模擬。這是第一點。第二,這 10,000 個環境副本不能完全相同。 你必須改變一些參數,比如重力、摩擦力和重量。我們稱之為領域隨機化。這給了我們模擬的原則,對吧?它為什麼有效?想像一下,如果一個神經網路能夠控制一個機器人解決一百萬個不同的世界,那麼它很可能也能解決第一百萬零一個世界,也就是我們的物理現實。 換句話說,我們的物理世界處於這個訓練的分佈之中。然後我們如何應用這個,你可以建立一個數位分身,對吧?一個機器人和世界的一對一副本,然後你在模擬中訓練,直接在真實世界中測試,零樣本轉移,對吧?你可以做一個手部動作,這是我們能做的最令人印象深刻的任務。 所以基本上,你有一隻機器狗在球上,然後我們將其轉移到真實世界。這是在賓州大學,基本上有人在遛機器狗。我們的研究員看起來超級怪異,像《黑鏡》的某一集。這其實叫做 Dr. Eureka,就像我們的一位研究員在他的狗身上試驗瑜伽球。 至少我們現在擁有了超越狗的靈巧性,對吧。是的,狗做不到,對吧。

接下來,我們也可以將其應用於更複雜的機器人,如人形機器人。這些人形機器人僅在 2 小時的模擬時間內就經歷了相當於 10 年的訓練來學習走路,然後你可以將其轉移,無論是什麼樣的實體,只要你有機器人模型,你模擬它,你就可以讓它走路。

我們能做的比走路更多嗎?所以當我們控制我們的身體時,你可以追蹤任何你想要的姿勢,追蹤任何關鍵點,遵循任何你想要的速度向量,這被稱為人形機器人的全身控制問題,這非常困難,但我們可以訓練它,對吧?在 10,000 個平行運行的模擬中,我們可以將其零樣本轉移到真實機器人上,無需任何微調。這是在 NVIDIA 實驗室。 我們實際上需要放慢影片速度。所以第一個影片是實時的,下一個影片是放慢的。這樣你就可以看到它所做動作的複雜性。它模仿人類所有這些敏捷的動作,同時保持平衡。各位,需要多大的神經網路才能做到這一點?是 150 萬個參數,不是十億。150 萬個參數足以捕捉人體的潛意識處理。系統級的推理,150 萬個參數。

所以如果我們把它放在這個圖表上,你有模擬的速度對比多樣性,我想我們稱之為模擬 1.0,數位分身範式,它是一個經典的向量化物理引擎,然後你可以運行它,達到每秒 10,000 到一百萬幀。 但問題是你必須建立一個數位分身。你需要有人來打造機器人,打造環境以及所有的一切,對吧?那非常繁瑣且需要手動。

邁向生成式模擬:Roboccasta 與數位表親

那麼,我們能否開始生成模擬的一部分?所有這些 3D 資產都是由 3D 生成模型生成的。所有這些紋理來自 Stable Diffusion 或任何你喜歡的擴散模型。 所有這些佈局都是由 PR 和大型語言模型編寫 XML 生成的。將所有這些結合起來,我們建立了一個名為 Roboccasta 的框架,這是一個大規模模擬,一個日常任務的組合式模擬。這裡的一切,對吧,除了機器人,一切都是生成的。你可以組合不同的場景,但它仍然依賴這個經典引擎來運行,但你已經可以從中獲得很多任務了。

所以現在我們可以做的是,我們再次讓人進行遠端操作,但這次你在模擬中進行遠端操作。你不是在真實機器人上遠端操作。你在模擬中告訴它。你在模擬中重播該軌跡,並添加所有出色的硬體加速光線追蹤,以製作這些帶有光照的精美場景。 你甚至可以改變動作。對吧?如果你進行遠端操作,然後將杯子從這裡移動到這裡,你不需要再次演示將杯子從這裡移動到這裡,或者從這裡移動到這裡。然後將所有這些結合起來,你透過環境生成在模擬中有一個人類演示。你可以將其乘以 n。對於動作生成,則是 m * n。 我向你保證,這是你今天唯一要做的數學運算。這就是我們如何增加數據量。然後你把它們放在一起。第一列和第三列是我們真實機器人的真實影片。第二列到第四列來自 Roboccasta 模擬,全部是生成的。所以你仍然可以看出這些紋理不是真實的,但它們已經足夠接近了。 我們把那些足夠接近的東西稱為什麼?我們稱之為數位表親的範式。它不是數位分身,但它在某種程度上抓住了精髓,對吧。所以是數位表親,這些模擬運行得較慢,但它們是這種混合的生成式物理引擎,我們生成其中的一部分,然後將其餘部分委託給經典的圖形管線。

影片生成的力量:Sim 2.0 數位遊牧

現在模擬這個場景,對吧?你有軟體,你有流體,你有所有東西。藝術家或圖形工程師要正確模擬這個場景將花費很長時間。所以如果我們看看圖形學是如何發展的,從左到右花了 30 年。而影片生成模型只用了一年就從左到右,模擬了所有可變形的麵條,對吧?它在這裡失去了一些幽默感,但這是我願意為最新的 Sora VO 付出的代價,對吧?所有這些策略模型都只用了一年。 這就是規模化和數據驅動過程的力量。你還記得我一開始展示的那個影片嗎?我騙了你們。那個影片裡沒有一個真實的像素。它完全是由一個自訂模型生成的。所以我們做的是,我們採用一個通用的開源的、最先進的影片生成模型,然後在我們真實機器人實驗室收集的領域數據上對其進行微調,所有這些都是生成的,現在你可以提示模型想像不同的未來,對吧?模擬反事實。所以你看到這兩幀是完全相同的,但給定不同的語言,生成的影片實際上會遵循語言並做正確的事情,即使這個動作在現實世界中從未發生過。

然後你可以這樣做。影片擴散模型不在乎場景有多複雜,對吧?它不在乎是否有流體或軟體,同樣的場景你可以要求它撿起不同的東西。 它實際上會用右手抓住物體並放入籃子裡。這些都是生成的,所有這些都是生成的。沒有一個像素是真實的。它正確處理了所有這些反射,嗯,對吧,所有這些互動都正確。我最喜歡的其中一個是那邊機器人彈奏尤克里里的畫面。 所以基本上,影片模型可能已經看過數百萬人類,很多很多彈奏尤克里里的人類,然後它就模擬機器人的手指來做那件事。即使硬體實際上不支援,影片生成模型也能做到。

所以如果我們把它放在一個更大的視角來看,對吧,這是模擬 2.0,它的多樣性很大,但目前運行速度可能很慢,沒有人這麼稱呼它,但我稱之為「數位遊牧」,也就是漫遊到夢境空間,我們的影片擴散模型。影片擴散模型是什麼呢?它是數億個網際網路影片的壓縮,形成這種多元宇宙的模擬。就像奇異博士一樣,對吧?你在夢境空間中實例化機器人,基本上機器人現在可以與任何地方的物體互動,無處不在,同時發生。

具身 AI 的擴展定律

所以你有了這個具身擴展定律。嗯,好吧。Jensen 離開了,但我想他會非常喜歡這個,對吧?所以你需要大量的運算能力來擴展經典模擬,那就是 Sim 1.x 系列。問題是,當你擴展這個時,它會遇到瓶頸,因為在這個手工打造的系統中,多樣性是有限的。 然後是神經世界模型,Sim 2.0,它將隨著運算能力呈指數級擴展。這是一個神經網路超越經典圖形工程師的時刻。這兩者加起來,將成為我們擴展下一代機器人系統的核動力。 你買得越多,你講得越多,你省得越多。所以一開始說運算情況會改善而不是惡化的人,請把這個圖形烙印在你的視網膜上,然後再想一想。

Groot N1 模型與開源

你把所有這些數據放入我們所謂的視覺語言動作模型中,該模型接收像素和指令,並輸出運動控制,然後你得到了我們在三月 GTC Jensen 主題演講中開源的,名為 Groot N1 的模型,我們在機器人上運行它,你知道,它有時可能很浪漫,嗯,是的,你無法想像我們在訓練期間做了多少清潔工作。 是的,它能夠在這個場合完美地抓住香檳杯。是的,它們做得非常好。然後它還可以執行一些工業任務,拾取一些工廠物件,它還可以進行多機器人協調。Groot N1 是完全開源的,實際上未來的模型系列也將是開源的,因為我們遵循 Jensen 的開源和普及化實體 AI 的範式。太棒了。

未來展望:實體 API

那麼接下來呢?在我們解決了實體 AI 之後,我們要去哪裡?我會說下一件事是實體 API。你知道,縱觀人類歷史,對吧,五千年來,我們擁有了更好的工具,對吧?總體上更好的社會,但我們做晚餐和從事許多體力勞動的方式或多或少仍然相同,對吧,從埃及時代開始。 也許在人類歷史的 99% 時間裡,我們都有這樣的結構:你從原材料出發,透過人類勞動,建立文明。也許在過去的 1% 或大約 50 年裡,我們的人類勞動在萎縮,我們有了這些高度專業化、高度複雜的機器人系統,它們一次只能做一件事。 它們的編程非常昂貴,但它們仍然存在於我們的社會之外。這就是我們現在擁有的。而未來則是將那條藍色的橫條推向各處,推向那裡,並擁有實體 API,對吧?就像大型語言模型 API 一樣,移動數位位元的區塊。實體 API 移動原子的區塊。 你基本上給你的軟體一個實體致動器來改變,對吧,物理世界。在這個實體 API 之上,將會出現一個新的經濟,一個新的範式,你將擁有實體提示,對吧?你如何指示這些機器人?你如何教導它們?語言有時是不夠的。你可以擁有實體應用程式商店和技能經濟。 所以,比方說,米其林廚師不需要每天都去廚房。他可以教一個機器人,然後基本上以服務的形式提供米其林晚餐。

我應該再次引用 Jensen 的話,未來所有會動的東西都將是自主的。總有一天,你回到家,對吧,看到乾淨的沙發和燭光晚餐,嗯,你的伴侶對你微笑,而不是因為你沒洗髒衣服而對你大吼大叫。 那仍然每天激勵著我,對吧?而且,你上個月買了兩個人形機器人。它運行著 Groot N7,那些機器人就融入了背景,對吧?有點像環境智能。它融入背景,你甚至不會注意到我們通過實體圖靈測試的那一刻,而那一天將僅僅被記為又一個普通的星期二。謝謝。