實體圖靈測試：Jim Fan 談 Nvidia 的具身 AI 藍圖

接下來，有請 Jim Fan。各位都認識他。上來吧，Jim。Jensen 今天早上才剛提到他。他不僅是 NVIDIA 的 AI 主管，也是一位傑出的研究科學家，他將為我們講述實體 AI。

實體圖靈測試的提出

幾天前，我看到一篇部落格文章吸引了我的注意。它寫著：「我們通過了圖靈測試，但沒有人注意到。」嗯，圖靈測試過去被視為神聖的，對吧？它是電腦科學的聖杯，對吧？也就是說，你無法分辨一段對話是來自人類還是機器。然後，事情就這樣發生了，我們達成了。我們就是達成了。你知道嗎，當 O3 Mini 需要多幾秒鐘思考，或者 Claude 無法調試你那些討厭的程式碼時，人們會感到沮喪，對吧？然後我們對每一個大型語言模型的突破都聳聳肩，認為這不過是又一個普通的星期二。在座的各位是最難打動的觀眾。所以我提議一個非常簡單的東西，叫做實體圖靈測試。

實體圖靈測試的設想

這個想法是這樣的，對吧？你在週日晚上舉辦了一場黑客松派對，結果就變成這樣。你的伴侶對你大吼大叫，你心想：「啊，該死。星期一早上，我要叫人把這爛攤子收拾乾淨，並為我做一頓非常棒的燭光晚餐，好讓我的伴侶開心。」然後你回到家看到這個景象，你無法分辨這是人類做的還是機器的傑作。對吧？夠簡單吧。實體圖靈測試。

目前的進展與挑戰

但我們現在在哪裡呢？我們接近了嗎？嗯，看看這個準備上班的 Cumul 機器人。它沒成功，對吧？那我們的狗和香蕉皮呢？啊，是的。還有指示機器人，你知道的，為你做早餐麥片。嗯，它正確識別了牛奶。我給它一個減分，對吧？它是好意的。哦，它用湯匙餵你。這是 VIP 體驗，對吧？看看那個。我嫉妒了。我沒有人用湯匙餵我。是的，這就是我們目前的狀況。

為何實體圖靈測試如此困難？

那麼，為什麼解決實體圖靈測試這麼他媽的難？你們知道大型語言模型的研究人員很愛抱怨，對吧？他們抱怨很多。最近，有個叫 Ilia 的人抱怨。他說，大型語言模型的預訓練數據快用完了。他甚至稱網際網路為 AI 的「化石燃料」。他說我們快沒有數據來訓練大型語言模型了。嗯，只要和機器人學家待一天，你就會知道大型語言模型的研究人員有多麼被寵壞了。我們連化石燃料都得不到。

這是在 NVIDIA 總部進行的一次數據收集。NVIDIA 有個咖啡廳，我們在那裡設置了這些人形機器人，我們操作它們並收集數據。這就是數據的樣子，對吧？機器人的關節控制訊號。這些是隨時間變化的連續值。你無法從網際網路上抓取這些數據。你在 Wikipedia、YouTube、Reddit 或任何地方都找不到它。所以你必須自己收集。

數據收集的困境：遠端操作

我們如何收集呢？我們有一種非常複雜，但也非常昂貴的方法，叫做遠端操作。嗯，你可以讓人戴上類似 VR 頭盔的東西，它可以識別你的手部姿勢並將其傳輸給機器人。透過這種方式，你可以教機器人做什麼，比如從烤麵包機裡拿起麵包，然後在上面淋上蜂蜜。但你可以想像這是一個非常緩慢且痛苦的過程，對吧？所以如果你把它放到擴展圖上，基本上它根本無法擴展。真實的機器人數據是「人力燃料」。它比化石燃料更糟。你在燃燒人力燃料。更糟的是，每個機器人每天最多只能運作 24 小時。事實上，你會得到比那少得多的時間，因為人類會累，而機器人比人類更容易累。這就是你得到的，那該怎麼辦呢？如何打破這個障礙？機器人學的核能在哪裡？我們必須擁有清潔能源。不能永遠依賴化石燃料。

解決方案：模擬的力量

進入模擬的世界。我們必須離開物理世界，然後在模擬中做些事情。所以我們訓練了這個機器手在模擬中完成超乎人類的靈巧任務，比如轉筆，嗯，對我來說它是超乎人類的，因為我不會轉筆，而且我很久以前，童年時期就放棄了，我很高興我的機器人至少在模擬中能比我做得更好。

模擬的原則：Sim 1.0 數位分身

我們如何訓練機械手完成像這樣複雜的任務？有兩個想法。第一，你必須以比實時快 10,000 倍的速度進行模擬。這意味著你應該在單個 GPU 上平行運行 10,000 個環境進行物理模擬。這是第一點。第二，這 10,000 個環境副本不能完全相同。你必須改變一些參數，比如重力、摩擦力和重量。我們稱之為領域隨機化。這給了我們模擬的原則，對吧？它為什麼有效？想像一下，如果一個神經網路能夠控制一個機器人解決一百萬個不同的世界，那麼它很可能也能解決第一百萬零一個世界，也就是我們的物理現實。換句話說，我們的物理世界處於這個訓練的分佈之中。然後我們如何應用這個，你可以建立一個數位分身，對吧？一個機器人和世界的一對一副本，然後你在模擬中訓練，直接在真實世界中測試，零樣本轉移，對吧？你可以做一個手部動作，這是我們能做的最令人印象深刻的任務。所以基本上，你有一隻機器狗在球上，然後我們將其轉移到真實世界。這是在賓州大學，基本上有人在遛機器狗。我們的研究員看起來超級怪異，像《黑鏡》的某一集。這其實叫做 Dr. Eureka，就像我們的一位研究員在他的狗身上試驗瑜伽球。至少我們現在擁有了超越狗的靈巧性，對吧。是的，狗做不到，對吧。

接下來，我們也可以將其應用於更複雜的機器人，如人形機器人。這些人形機器人僅在 2 小時的模擬時間內就經歷了相當於 10 年的訓練來學習走路，然後你可以將其轉移，無論是什麼樣的實體，只要你有機器人模型，你模擬它，你就可以讓它走路。

我們能做的比走路更多嗎？所以當我們控制我們的身體時，你可以追蹤任何你想要的姿勢，追蹤任何關鍵點，遵循任何你想要的速度向量，這被稱為人形機器人的全身控制問題，這非常困難，但我們可以訓練它，對吧？在 10,000 個平行運行的模擬中，我們可以將其零樣本轉移到真實機器人上，無需任何微調。這是在 NVIDIA 實驗室。我們實際上需要放慢影片速度。所以第一個影片是實時的，下一個影片是放慢的。這樣你就可以看到它所做動作的複雜性。它模仿人類所有這些敏捷的動作，同時保持平衡。各位，需要多大的神經網路才能做到這一點？是 150 萬個參數，不是十億。150 萬個參數足以捕捉人體的潛意識處理。系統級的推理，150 萬個參數。

所以如果我們把它放在這個圖表上，你有模擬的速度對比多樣性，我想我們稱之為模擬 1.0，數位分身範式，它是一個經典的向量化物理引擎，然後你可以運行它，達到每秒 10,000 到一百萬幀。但問題是你必須建立一個數位分身。你需要有人來打造機器人，打造環境以及所有的一切，對吧？那非常繁瑣且需要手動。

邁向生成式模擬：Roboccasta 與數位表親

那麼，我們能否開始生成模擬的一部分？所有這些 3D 資產都是由 3D 生成模型生成的。所有這些紋理來自 Stable Diffusion 或任何你喜歡的擴散模型。所有這些佈局都是由 PR 和大型語言模型編寫 XML 生成的。將所有這些結合起來，我們建立了一個名為 Roboccasta 的框架，這是一個大規模模擬，一個日常任務的組合式模擬。這裡的一切，對吧，除了機器人，一切都是生成的。你可以組合不同的場景，但它仍然依賴這個經典引擎來運行，但你已經可以從中獲得很多任務了。

所以現在我們可以做的是，我們再次讓人進行遠端操作，但這次你在模擬中進行遠端操作。你不是在真實機器人上遠端操作。你在模擬中告訴它。你在模擬中重播該軌跡，並添加所有出色的硬體加速光線追蹤，以製作這些帶有光照的精美場景。你甚至可以改變動作。對吧？如果你進行遠端操作，然後將杯子從這裡移動到這裡，你不需要再次演示將杯子從這裡移動到這裡，或者從這裡移動到這裡。然後將所有這些結合起來，你透過環境生成在模擬中有一個人類演示。你可以將其乘以 n。對於動作生成，則是 m * n。我向你保證，這是你今天唯一要做的數學運算。這就是我們如何增加數據量。然後你把它們放在一起。第一列和第三列是我們真實機器人的真實影片。第二列到第四列來自 Roboccasta 模擬，全部是生成的。所以你仍然可以看出這些紋理不是真實的，但它們已經足夠接近了。我們把那些足夠接近的東西稱為什麼？我們稱之為數位表親的範式。它不是數位分身，但它在某種程度上抓住了精髓，對吧。所以是數位表親，這些模擬運行得較慢，但它們是這種混合的生成式物理引擎，我們生成其中的一部分，然後將其餘部分委託給經典的圖形管線。

影片生成的力量：Sim 2.0 數位遊牧

現在模擬這個場景，對吧？你有軟體，你有流體，你有所有東西。藝術家或圖形工程師要正確模擬這個場景將花費很長時間。所以如果我們看看圖形學是如何發展的，從左到右花了 30 年。而影片生成模型只用了一年就從左到右，模擬了所有可變形的麵條，對吧？它在這裡失去了一些幽默感，但這是我願意為最新的 Sora VO 付出的代價，對吧？所有這些策略模型都只用了一年。這就是規模化和數據驅動過程的力量。你還記得我一開始展示的那個影片嗎？我騙了你們。那個影片裡沒有一個真實的像素。它完全是由一個自訂模型生成的。所以我們做的是，我們採用一個通用的開源的、最先進的影片生成模型，然後在我們真實機器人實驗室收集的領域數據上對其進行微調，所有這些都是生成的，現在你可以提示模型想像不同的未來，對吧？模擬反事實。所以你看到這兩幀是完全相同的，但給定不同的語言，生成的影片實際上會遵循語言並做正確的事情，即使這個動作在現實世界中從未發生過。

然後你可以這樣做。影片擴散模型不在乎場景有多複雜，對吧？它不在乎是否有流體或軟體，同樣的場景你可以要求它撿起不同的東西。它實際上會用右手抓住物體並放入籃子裡。這些都是生成的，所有這些都是生成的。沒有一個像素是真實的。它正確處理了所有這些反射，嗯，對吧，所有這些互動都正確。我最喜歡的其中一個是那邊機器人彈奏尤克里里的畫面。所以基本上，影片模型可能已經看過數百萬人類，很多很多彈奏尤克里里的人類，然後它就模擬機器人的手指來做那件事。即使硬體實際上不支援，影片生成模型也能做到。

所以如果我們把它放在一個更大的視角來看，對吧，這是模擬 2.0，它的多樣性很大，但目前運行速度可能很慢，沒有人這麼稱呼它，但我稱之為「數位遊牧」，也就是漫遊到夢境空間，我們的影片擴散模型。影片擴散模型是什麼呢？它是數億個網際網路影片的壓縮，形成這種多元宇宙的模擬。就像奇異博士一樣，對吧？你在夢境空間中實例化機器人，基本上機器人現在可以與任何地方的物體互動，無處不在，同時發生。

具身 AI 的擴展定律

所以你有了這個具身擴展定律。嗯，好吧。Jensen 離開了，但我想他會非常喜歡這個，對吧？所以你需要大量的運算能力來擴展經典模擬，那就是 Sim 1.x 系列。問題是，當你擴展這個時，它會遇到瓶頸，因為在這個手工打造的系統中，多樣性是有限的。然後是神經世界模型，Sim 2.0，它將隨著運算能力呈指數級擴展。這是一個神經網路超越經典圖形工程師的時刻。這兩者加起來，將成為我們擴展下一代機器人系統的核動力。你買得越多，你講得越多，你省得越多。所以一開始說運算情況會改善而不是惡化的人，請把這個圖形烙印在你的視網膜上，然後再想一想。

Groot N1 模型與開源

你把所有這些數據放入我們所謂的視覺語言動作模型中，該模型接收像素和指令，並輸出運動控制，然後你得到了我們在三月 GTC Jensen 主題演講中開源的，名為 Groot N1 的模型，我們在機器人上運行它，你知道，它有時可能很浪漫，嗯，是的，你無法想像我們在訓練期間做了多少清潔工作。是的，它能夠在這個場合完美地抓住香檳杯。是的，它們做得非常好。然後它還可以執行一些工業任務，拾取一些工廠物件，它還可以進行多機器人協調。Groot N1 是完全開源的，實際上未來的模型系列也將是開源的，因為我們遵循 Jensen 的開源和普及化實體 AI 的範式。太棒了。

未來展望：實體 API

那麼接下來呢？在我們解決了實體 AI 之後，我們要去哪裡？我會說下一件事是實體 API。你知道，縱觀人類歷史，對吧，五千年來，我們擁有了更好的工具，對吧？總體上更好的社會，但我們做晚餐和從事許多體力勞動的方式或多或少仍然相同，對吧，從埃及時代開始。也許在人類歷史的 99% 時間裡，我們都有這樣的結構：你從原材料出發，透過人類勞動，建立文明。也許在過去的 1% 或大約 50 年裡，我們的人類勞動在萎縮，我們有了這些高度專業化、高度複雜的機器人系統，它們一次只能做一件事。它們的編程非常昂貴，但它們仍然存在於我們的社會之外。這就是我們現在擁有的。而未來則是將那條藍色的橫條推向各處，推向那裡，並擁有實體 API，對吧？就像大型語言模型 API 一樣，移動數位位元的區塊。實體 API 移動原子的區塊。你基本上給你的軟體一個實體致動器來改變，對吧，物理世界。在這個實體 API 之上，將會出現一個新的經濟，一個新的範式，你將擁有實體提示，對吧？你如何指示這些機器人？你如何教導它們？語言有時是不夠的。你可以擁有實體應用程式商店和技能經濟。所以，比方說，米其林廚師不需要每天都去廚房。他可以教一個機器人，然後基本上以服務的形式提供米其林晚餐。

我應該再次引用 Jensen 的話，未來所有會動的東西都將是自主的。總有一天，你回到家，對吧，看到乾淨的沙發和燭光晚餐，嗯，你的伴侶對你微笑，而不是因為你沒洗髒衣服而對你大吼大叫。那仍然每天激勵著我，對吧？而且，你上個月買了兩個人形機器人。它運行著 Groot N7，那些機器人就融入了背景，對吧？有點像環境智能。它融入背景，你甚至不會注意到我們通過實體圖靈測試的那一刻，而那一天將僅僅被記為又一個普通的星期二。謝謝。