原文連結: 通用型機器人學的新紀元:人形機器人的崛起 | NVIDIA GTC 2025

哈囉。哈囉。哇,現場觀眾看起來太棒了。呃,就像 Madison 剛才說的,我的名字是 Tiffany Jansen,我將是今天的主持人。簡單介紹一下我自己,我是 Tiffen Tech 的創辦人。我不知道你們怎麼樣,但我可是倒數著日子期待這場座談會呢。 人形機器人近來取得了許多進展,能夠與這個領域的一些領導者坐下來聽聽他們的見解,真是令人難以置信。不僅能了解我們現在的狀況,還能知道我們未來的方向。讓我們先來一輪自我介紹。我從 Burnt 開始。

引言與小組成員介紹

好的。我的名字是 Burnt Barnick。我是 1X 的創辦人兼執行長,我們的使命是透過這些安全、智慧的人形機器人創造充裕的勞動力,我們堅信要真正達到智慧,這些機器人需要與我們一同生活和學習。這就是為什麼我們認為消費級應用必須先發生,才能真正體驗到人類生活中所有細微的差異,然後利用這種智慧在未來所有其他垂直領域中從事有用的勞動,對吧,醫院、老年照護、零售、工廠、物流,這很令人興奮。

嗨,我是 Deepak Padhak,我是 Skilled AI 的執行長兼共同創辦人。在 Skilled,我們正在為機器人學建立一個通用的「大腦」。我們的論點是,我們可以有一個單一的共享模型,因為機器人學是一個數據稀缺的領域。我們不妨利用所有可用的平台、任務、情境中的一切數據。可以把它想像成一個大規模的基礎模型,你可以用於任何機器人、任何硬體、任何任務、任何情境。

呃,我是 Pros Felix-Pugh,Agility Robotics 的技術長。在 Agility,我們的人形機器人 Digit 是為工作而生,我們目前正將它引入製造和物流使用案例。我們認為,讓技術走向世界並從中學習的最佳方式,就是找到真正的客戶和實際部署來執行工作。這就是我們一直專注的,讓機器人走出去,進入勞動力市場。

嗯,Aaron Saunders,Boston Dynamics 的技術長,呃,在人形機器人還沒變酷之前就已經在研究了。嗯,在 Boston Dynamics,你知道,我們的使命一直以來都一樣,就是讓機器人成真。嗯,我們已經出貨了幾千台機器人。人形機器人是我們最新的,呃,算是公告。呃,我們真心希望將一個能夠做真正有用工作的產品推向市場,對吧?所以,去做那些,呃,呃,呃,將人們從骯髒、枯燥、危險的工作中解放出來的事情。這就是我們長期以來一直在做的事情,我認為還有更多工作要做,但我們對未來的方向感到非常興奮。

大家好,我是 Jim Fan。呃,我是 NVIDIA Gear Lab 的共同負責人,也是 Project Groot 的負責人。呃,Groot 是 NVIDIA 的登月計畫,旨在為人形機器人打造基礎模型,也就是機器人大腦。Groot 也代表了我們下一代物理 AI 計算平台的策略。我們也肩負著普及物理 AI 的使命。事實上,昨天在 Jensen 的主題演講中,我們宣布開源 Groot N1 模型,呃,這是世界上第一個開源的人形機器人基礎模型。它只有 20 億個參數,而且,呃,它的表現超乎預期。你基本上是將世界最先進的自主人形智慧掌握在手中。嗯,而且,嗯,我還想說,嗯,就像在座的各位一樣,嗯,我在機器人學變得性感之前就開始研究了。嗯,今天我看到這裡座無虛席。所以我真的很高興它們今天變得性感了。所以非常感謝大家。你們都讓我今天很開心。

哦,感謝大家蒞臨。我知道我們都很興奮。顯然,我們在座談會之前通過一次電話,在那次對話中,我記不清具體是誰了,但有人在電話中分享說,機器人學是 AI 最古老的應用,而且歷史上它的進展最慢——我得說,現在情況不同了——是什麼改變了呢?

為何現在是機器人學的時代?

我想我在那次電話中提出了這個問題,是的,嗯,我認為最大的改變是 Jensen 現在開始關注機器人學了。Jensen 有點石成金的能力,對吧?任何他涉足的領域都會指數級擴展。我們稱之為 Jensen 擴展定律,對吧?開個玩笑,我認為,呃,機器人學作為最古老的領域之一,與 AI 本身存在的時間一樣長,而機器人學之所以如此困難,嗯,是因為莫拉維克悖論(Moravec's paradox)。這個悖論指出,對人類來說容易的事情,對機器來說其實非常困難,反之亦然,對吧,那些我們覺得極其困難的事情,比如創意寫作,對機器來說可能並沒那麼難。這就是為什麼像大型語言模型(LLMs)像自然語言處理(NLP)對吧,電腦視覺這些領域,如今比機器人學解決得好得多。所以我們現在正 面臨這個悖論。

那麼現在發生了什麼變化呢?我會說有幾個方面。一是,呃,在模型方面,嗯,因為像 LLMs 這樣的基礎模型的出現,有了 ChatGPT 時刻。現在我們有了能夠進行推理的模型,我們有了能夠理解電腦視覺的多模態模型,對吧,對 3D 視覺世界的開放詞彙理解遠勝以往。這些是解決機器人學問題的必要但不充分條件,比如你必須先解決視覺問題,擁有一個非常好的視覺系統,才能談論擁有通用機器人。所以我認為模型的其他部分正變得非常非常好,我們可以開始更系統地處理機器人學問題。這是第一點。

第二點的改變是,呃,在數據方面。所以,你知道,不像 LLMs,我引用 Ilia Sutskever 的話,他說網際網路是 AI 的化石燃料,對吧。呃,嗯,機器人學甚至沒有化石燃料,至少對於 LLMs,你可以下載文本,你可以從維基百科抓取文本。我們從哪裡抓取馬達控制?我們從哪裡抓取網際網路上所有那些機器人軌跡?你根本找不到。所以,我們必須生成數據。我們必須大規模收集數據。我認為模擬的出現,呃,GPU 加速模擬的出現,確實讓這些問題變得更容易處理,因為現在你可以在大約三個小時的計算時間內生成相當於 10 年的訓練數據。所以這確實讓我們超越了這個數據悖論。這是第二點。

第三點是硬體方面,我們這裡有一些最傑出的,呃,創辦人,來自一些我們見過最好的,嗯,機器人硬體公司。我認為硬體已經變得好很多,也便宜很多,對吧,就像今年我們看到硬體的,嗯,價格範圍可能在 4 萬美元,這是一輛汽車的價格,嗯,而在 2001 年,NASA 製造了 Robonaut,最早的主要人形機器人之一,它在 2001 年的美元價值約為 150 萬美元,對吧。所以,它終於變得可以負擔得起,嗯,嗯,它將很快成為主流。

Erin,我很想聽聽你對此的看法。你在介紹中提到,你在機器人學還沒變酷之前就已經進入這個領域了。那麼,你認為發生了什麼變化?

是的,我想,嗯,那涵蓋了很多方面。所以,讓我試著從中挑選一些部分來談。嗯,我確實認為,模擬與現實差距(sim-to-real gap)的縮小是一件大事,對吧?所以我認為長期以來,呃,機器人學界一直在努力創建一個,呃,嗯,能夠正確表示物理並且計算效率高的模擬環境。對吧?所以我們可以創建非常複雜的模型,能夠很好地表示物理世界,但我們無法實時或超實時地運行它們。所以我認為對我來說,最大的變化可能是能夠以超實時的速度表示真實世界的物理現象,這讓你能夠加速你可以探索的模擬數量,以及你如何使用這些模擬來開發新的人工智慧。

然後,你知道,許多零組件的商品化。所以我認為我們可能需要給一些相鄰行業巨大的肯定,對吧。消費電子產品開發了電池和相機,這些,這些就像,你知道,感知技術,觀察世界,計算。呃,回顧過去,即使是 10 到 15 年前,你知道,大部分機器人都裝滿了印刷電路板和電線,電池容量非常小,而這已經完全改變了,對吧,我們可以放入大量的計算能力,我們可以放入微小的感測器,呃,它們功耗很低。所以我認為零組件的商品化,我不認為這主要是關於低成本,我知道這是現在的一個大焦點,但我認為我們看到機器人創業時代的原因是,有一個全球供應鏈,充滿了你可以像拼圖一樣組裝起來的非常重要的部件。因此,我們將機器人學界從試圖設計每一個齒輪的人提升到了可以將這些東西像拼圖一樣組合起來的人,而且,而且基本上可以在更高的層次上操作。所以現在我們有了在智慧層面上運作的公司,他們正在開發應用程式,而不是將同樣多的資本和精力僅僅用於讓一個物理機器站立起來。

沒錯。是的。我想補充一點,關於 Jim 最初的觀點,呃,關於,我認為你很好地闡述了所有已經改變的差異。呃,我想補充的是,AI 不僅僅是第一個應用。抱歉,機器人學不僅僅是 AI 的第一個應用,它就是 AI 的本質。如果你去看 Turing 最初關於 AI 的文件,那是針對機器人學的。他當時說,你應該製造能學習的東西,而不是像製造一個成人一樣,製造一個像孩子一樣學習的東西,然後它就能成長。你可以把同一個機器人放在教室裡,隨著時間的推移它會長大成人。這是一個引人入勝的想法,他在 1950 年代就有了這個想法,對吧,因為語言、視覺所有這些東西都很酷,但如果你觀察自然界,它們在時間軸上出現得遠晚於物理行動。比如,LLMs 我們訓練用的數據,可能來自過去 100 年、200 年,就算 1000 年吧,我們訓練的數據不超過 1000 年,而人類存在的時間遠超 1000 年。所以並不是語言導致了智慧,而是基礎設施已經存在,我們的大腦實際上已經存在,它是通過物理推理產生的,這就是為什麼影響如此巨大。比如你不需要向任何人解釋什麼是機器人學,你能感覺到它,因為我們每天都在做物理任務,每個公司都受到機器人學的影響,這才是重點。

那麼,除了 Jim 提到的所有因素之外,發生了什麼變化,比如這些是技術細節,是的,但真正改變的是我們處理機器人學的方式。到目前為止,機器人學一直是控制(Controls)的領域,控制理論一直在驅動機器人學,直到我會說甚至三四年前。對吧,對於那些在這個領域待了很長時間的人來說,他們會知道控制理論並不是為機器人學設計的。呃,比如控制理論在二戰期間真正發光發熱,用於飛行飛機、導彈等一切。然後因為 Turing 的緣故,機器人學的熱潮開始了。然後人們想,我們用什麼呢?好吧,讓我們用控制理論吧,那是為那些目的而建立的。然後它就一直沿用下來,持續了幾十年,70 年。但這不符合最初的精神,不是孩童般的學習。對於孩子,你不會先教他們微積分才讓他們學走路,比如弄清楚你的關節運動然後學走路。你是通過經驗學習的。所以通過經驗學習(learning by experience)是發生的主要變化。現在我們看到所有的轉變正在發生。嗯,我的意思是 Boston Dynamics 今天剛發布了一個通過經驗學習的影片。所以我認為這是發生的一個主要變化。我們已經從編程經驗轉變為通過經驗學習,這是我們思考機器人學方式的一個重大轉變。

我實際上想深入探討這一點。所以對我來說,對吧,我也在這個領域待了足夠長的時間,經歷過經典控制團隊的時代,但是,嗯,很大一部分發生的事情是網際網路,對吧,如果你想一下,就像,這是一個巨大的人類實驗,持續了將近 30 年,全世界每個人都貢獻於創建這個巨大的數據源,這樣我們就可以訓練一個 AI,這完全是魔法。現在我們要做的就是,要求你們所有人再做同樣的事情,未來 30 年,只是四處走動,扮演機器人,不,我們不會那樣做。但我們有了那些數據,因此,這才是真正推動 AI 前進的原因,即使它始於機器人學。對我來說,現在的關鍵在於,我們如何利用現有的數據來引導,讓你的機器人能夠做一些有用的事情。因為到了那個點,你就可以開始在真實世界中學習,智慧真正來源於此,對吧。但你必須先達到它在某種程度上有用的地步。所以當我說,去冰箱幫我拿罐可樂,如果機器人有一半的時間能做到,那麼我們就有了一條可行的路徑,因為現在我們只需要說,好的,那個成功了,那個沒成功,我們需要運行足夠多次,它就會變得非常擅長去冰箱幫我拿可樂。我認為這就是我們現在看到的,隨著所有這些多模態 LLMs 的出現,你無法真正通過這種方法解決機器人學或一般的智慧問題,我甚至認為,但你可以讓你的系統變得足夠有用,以至於你可以創建一個非常高效的、規模化的數據飛輪,而不需要你為機器人所做的每件事都進行遠端操作,這可能是通往,即使不是通用人工智慧(AGI),至少也是非常有用的機器,甚至可能通往 AI 的路徑。我們未來會看到。

我覺得我們得回過頭來談談你剛才說的最後一部分。但與此同時,Pros,我很想聽聽你的看法。

是的,我想呼應 Aaron 的一些評論。你知道,為什麼機器人學又重新受到關注。你知道,AI 從機器人學開始,然後發展到所有這些其他領域,然後又繞回來了。嗯,機器人學之所以具有挑戰性有兩個原因。第一,硬體很難,第二,世界是非結構化的,對吧?如果你看看 AI 是如何演變的,對吧,以及機器人學是如何演變的,機器人學的很大一部分一直在處理硬體很難的問題,以及微型化感測器,如 MEMS,開發致動器和驅動技術,能源,儲能技術。所有這些東西都必須解決。即使是像 Arduino 這樣的平台,也普及了人們讓物體在現實世界中移動的能力,並將其帶給人們,這樣他們就不必每次都重新發明輪子。

在 AI 方面,我們基本上一直在摸索前進,從解決結構化問題到日益非結構化的問題。解決從查詢和提示到 API 的問題,到簡化的世界模型,再到現在的非結構化世界模型。呃,這個拼圖的每一塊都一直在提升 AI 平台,尋找新的數據攝取方式,吸取先前結構的最佳實踐以及其運作方式,然後將其帶到下一步:好吧,如果我們移除一些這些輔助輪,現在你只是看著來自自動駕駛汽車的影片,或者現在你只是看著由機器人相機捕捉的自我中心視角影片。以及這個世界接下來會發生什麼。所以我認為,幕後一直有更多這種逐步解鎖的進展,我們只是看到這種累積最終達到了這個臨界點,現在,好吧,我們可以去解決這個以非結構化方式與世界互動的完整問題了。

我認為你最後說的那點非常重要,談論硬體方面發生的事情,也許過去幾年發生的最大事情之一是硬體的穩健性,以及製造在與現實世界互動時不會損壞的硬體的能力。因為我們所有在機器人學領域工作很久的人,對吧?每次運行實驗都需要重建機器人時,實驗會花費相當長的時間。但我們現在在硬體方面也確實達到了這樣一個點,我們可以讓某些東西在現實世界中學習,並安全地與世界互動,而不會損壞自身或世界。這也是這個領域取得進展的必要條件。這花費了很長時間。這是一個相當困難的問題。

策略與方法:AI 模型、資料與硬體考量

你知道,即使聽了你們所有人的發言以及你們對此的想法,也引出了一個有趣的問題。我認為你們都有非常令人興奮和獨特的策略和方法。我真的很好奇想聽聽你們對自己策略和方法的看法,例如關於 AI 的角色,從專用模型轉向通用模型,或者你們如何思考像基礎模型爆炸性增長這樣的事情。

是的,我或許可以談談 Groot 的策略,對吧?我們正在解決一個非常非常困難的問題,呃,為各種不同的人形機器人,而不僅僅是一種,建立一個通用的「大腦」。我們也希望能實現我們所說的跨體泛化(cross embodiment)。那麼我們如何解決這個問題呢?我會說,呃,有兩個主要原則。

原則一:模型本身我們希望它盡可能簡單。我們希望它盡可能地端到端(end-to-end)。呃,達到基本上是光子到動作(photons to actions)的程度,對吧?所以你從像攝影機這樣的設備接收像素輸入,然後直接輸出連續的浮點數,這些基本上就是馬達上的控制值,這就是端到端的模型,沒有中間步驟,盡可能簡單。為什麼這樣好呢?呃,因為如果我們看看 NLP 領域,順便說一句,NLP 是迄今為止極其成功的,也許是最成功的,呃,由 AI 解決的領域。我認為作為機器人學家,我們應該抄作業,抄那些已經成功的作業。所以對於 ChatGPT,對吧?在 ChatGPT 之前,呃,NLP 領域有點混亂,對吧?你有文本摘要、機器翻譯、程式碼生成,它們使用完全不同的數據管道、訓練協議和模型架構,有時甚至不止一個模型。然後 ChatGPT 出現了,把所有東西都顛覆了,因為它簡單,對吧?它將任何文本映射到任何其他文本,就這樣。底層是一個 Transformer,將一個整數序列映射到另一個整數序列。正因為它如此簡單,你可以將所有的數據、所有的問題統一到一個模型中。我認為這就是機器人學應該抄作業的地方,讓模型盡可能簡單。

第二個原則是數據管道實際上會非常複雜。比如圍繞模型的所有東西都會非常複雜。這是因為對於機器人學,正如我一開始所說,數據是一個巨大的問題。你無法從 YouTube、從維基百科下載馬達控制數據。你根本找不到。所以,呃,對於 Groot,我們的數據策略可以組織成一個金字塔。現在閉上眼睛,想像一個金字塔,對吧,在頂部,你有真實的機器人數據,那將是最高質量的,因為沒有領域差距(domain gap)。對吧?你是通過在現實世界中進行遠端操作(teleoperation)來收集的。但這必定是相當有限的,不太具有可擴展性,因為我們受到每天每台機器人 24 小時這個基本物理限制的約束。對吧?就這樣。在原子的世界裡很難擴展。

在金字塔的中間,是模擬發揮作用的地方,我們嚴重依賴像 Isaac Sim 這樣的物理引擎,呃,來大規模生成數據。這些數據可以基於現實世界收集的數據生成,或者通過經驗學習生成,正如 Deepak 提到的,對吧。所以那將是模擬數據。而且請記住,在 NVIDIA 成為一家 AI 公司之前,它是一家圖形公司,呃,圖形引擎最擅長什麼?物理,對吧?渲染。所以這是我們的模擬策略。

在金字塔的底部,對吧,我們仍然需要所有那些來自網際網路的多模態數據,但這次我們使用它的方式有點不同,對吧?我們用它來訓練視覺語言模型(visual language models),這些模型可以成為視覺-語言-動作模型(vision language action models)的基礎。而視覺語言模型是通過大量網際網路的文本、圖像、音訊等訓練出來的。然後最近還有影片生成模型,它們變得如此出色,以至於可以成為世界的「神經模擬」(neuro simulations)。所以金字塔的最後一層實際上是神經模擬,對吧,它超越了傳統的圖形引擎。而這些神經模擬,你可以提示一個影片生成模型,要求一些事情,比如,你知道,為我幻想出一條新的軌跡,一條新的機器人軌跡。而影片模型學習物理學得非常好,因為它是在數億個線上影片上訓練的。它,它學習物理學得如此之好,以至於能夠給你提供物理上準確的,呃,像素級的軌跡。然後你可以運行我們在 Groot N1 中提出的算法,叫做潛在動作(latent action),從我們稱之為機器人的夢境(dreams of the robot)中,從幻想出來的內容中提取回那些動作,對吧,就像人形機器人夢見電子羊,對吧,它在做夢,你從中收集那些潛在動作,然後把它放回這個數據金字塔中。通過所有這些非常複雜的數據策略,我們將它們壓縮。我們把它們壓縮成這個乾淨的產物,從光子到動作,對吧?一個 20 億參數的模型足以應對廣泛的任務。所以這是 Groot 策略的概述。

我認為這描繪了一個非常,非常美好的未來圖景,對吧?所以我們有一個簡單的大模型。呃,它甚至不是那麼大。嗯,它基本上解決了一切,從像素到運動,對吧?但我認為在此過程中,我們也需要關注,嗯,所有那些我們必須承擔的,將產品交付到現實世界中,而這些產品需要確定性(determinism)的事情。對吧?所以當你,呃,需要向客戶交付某樣東西時,呃,你需要了解它在意外情況下會做什麼。你需要考慮功能安全(functional safety)。你需要考慮,嗯,如果你在現有功能之上,呃,添加新功能,它將如何退化。所以我認為你指出了一個非常重要的事情,那就是複雜性被推到了數據中,對吧,以及你收集的數據。我認為我們正處於構建那個數據集的旅程的開端。

所以我想,你知道,也許我會說,呃,呃,我們認為重要的一個策略是,確保你不會為了追求這個潛在非常強大的終極狀態而扔掉整個工具箱,因為我們作為一個社群,在此過程中還有很多事情要做。其中之一就是維護購買機器人的客戶的信任。呃,我們必須能夠通過應用我們擁有的所有工具來做到這一點。所以我認為有很多令人興奮的,呃,新功能,我們認為將徹底改變機器人學格局的事情。它們已經在改變了。但與此同時,我們也需要現實一點,有一個龐大的機器人學工具箱,可以追溯到 70 年前。其中一些工具也是解決現實世界問題的正確工具。呃,特別是當你用大型、強大的、可能傷人的機器人做事時,或者在人周圍做事,你想要維持那份信任,因為一旦你打破了它,你就永遠無法挽回,對吧。所以我認為,也許我只想說,我們需要應用一個龐大的工具箱。

是的,我的意思是,呃,我非常贊同你,Jim,就像我們,我們非常屬於那個陣營,我們正在製作,像一個簡單的模型,我們還不知道它具體會是什麼樣子,所以我不會稱它為如此簡單,但,呃,相對簡單的模型,而且關鍵在於數據,對吧?如果我們想從早期 LLMs 和晚期 LLMs 中吸取教訓,在這種情況下,我認為經常被低估的事情之一是多樣性的重要性。所以在 LLM 歷史的開端,對吧,有很多公司試圖訓練,比如說,一個非常擅長創作詩歌的模型。所以他們會用世界上所有最好的詩歌來訓練,但這並不真正奏效,因為除非你在與寫詩毫無關係的非常多樣化的數據上進行訓練,否則你不會獲得智慧,因為智慧來自於那種多樣性。

我們現在至少在我們的模型中看到的是,這對機器人學顯然也是如此。即使在我們現在剛開始時非常小的規模下,使用這些微小的數據集,我們實際上更多地受到多樣性的限制,而不是數據規模的限制。所以關鍵在於,你如何獲得盡可能多的任務,在盡可能多的不同環境中,最好還有盡可能多的噪音和動態事件發生,這樣,就像,你才能理解一個實際的任務是什麼。呃,我最喜歡的例子是打開洗衣機。當我們走進來,呃,看到一台洗衣機,我們會看到,好的,我們要將衣服放進那個圓洞裡。所以我們會嘗試打開它,我們會嘗試找到一個把手,如果打不開,也許某處有一個閂鎖。如果沒有,也許我們把旋鈕轉回零。但我們對,就像,洗衣機實際上是如何運作的有很好的理解,對吧?所以我們可以弄清楚如何使用一台新的。而今天的機器完全沒有這個能力。你有點像是在學習重複一個動作。這就是為什麼我們真的認為,將機器人大量部署出去並真正獲得多樣化數據是如此重要。

我想這是我們非常逆向的觀點,我認為討論起來非常有趣,因為,嗯,這就是為什麼我們認為,這必須發生在人群中。它必須發生在家裡,而且安全必須是機器的內在屬性,對吧?你如何確保機器中的能量不會大到危險。嗯,然後思考我們如何將此與經典工具箱結合起來,呃,是的。

我想在這裡補充一點,嗯,不像 LLMs 或視覺,當你說在,呃,機器人學中,方法是什麼?總有兩件事:硬體的方法是什麼,軟體的方法是什麼?沒有人對語言問這個問題:GPU 的方法是什麼?因為我們已經涵蓋了,Jensen 已經涵蓋了。所以就像,但是在機器人學中有兩件不同的事情,對吧,這是一個主要問題,比如,應該只有一種機器人嗎?應該有一種 1X 機器人嗎?應該有一種下一代機器人嗎?比如我們部署的是哪種機器人?然後如果你部署所有機器人,那麼它們的大腦是共享的嗎?

我認為這裡的洞察有兩點:一是人類,比如任何觀眾都可以走上來,你可以給他們一套 VR 服裝,比如動作捕捉服或一些手套或 VR 頭盔,他們可以控制任何機器人,任何機器人。他們不需要知道馬達的細節。他們不需要知道馬達是如何工作的。這已經證明了一個可以控制任何機器人的大腦可以存在。所以這是第一個方面。所以你可以使用來自任何地方的數據。

現在第二件事是,外面沒有數據。每個人都知道這一點,對吧?但我們忽略了一種特殊的機器人,它就在那裡,而且我們有大量的數據,那些機器人就是人類。我們不是機械機器人。我們不是由電力設計的。我們是生物機器人。但歸根結底,相似的原則指導著我們,比如你有運動神經元,它們被稱為運動神經元、感覺神經元。感覺神經元將信號從你的感測器傳遞到你的大腦,運動神經元將信號從大腦傳遞到你的馬達。所以如果我們同意一個可以控制所有硬體的大腦可以存在。為什麼我們要排除生物硬體呢?如果你不排除它,你實際上可以使用人類活動的人類影片數據。比如我們可能沒有一個 1X 機器人,比如說,做一些事情,拿起東西,打開冰箱,但人類每天打開冰箱,比如 10 次,外面有數萬億關於人類這樣做的影片。所以這是,呃,至少我們的信念是,這是機器人學一個非常關鍵的數據,比如人類四肢如何運作,這個如何運作。所以你實際上可以使用這些知識來,呃,走向這個方向,當然,除了模擬之外,它是不完整的,因為你不能僅僅觀看和玩耍,呃,但這些東西可以結合在一起。

我想這是,哦,很快地,我想這個,我想我們非常同意。我的意思是,所有這些數據都非常有用,我們也在使用它,就像,這些通常不是,那些數據是需要的。我只是想澄清一點,這一點在這裡被混淆在兩件事中了。

不,這很好。我可以看出 Pros 對此也有強烈的想法。

嗯,作為一個遠端操作過很多機器人的人,我可以說,當然人腦很擅長遠端操作各種平台,但我可以根據經驗告訴你,性能水平不一樣。硬體絕對可以產生差異。呃,而且絕對,我的意思是,我遠端操作過 1X 機器人,對吧?體驗很棒,對吧?我遠端操作過一些工業機器人,體驗並不好。嗯,硬體在這方面可能非常重要,並且確實定義了一些性能特徵。我認為重要的是要注意,會有差異,並且需要一定程度地構建正確的硬體,使其可控,具有正確的感測能力,具有正確的慣性特性,嗯,使其在現實世界中有效。我的意思是,我們這裡有 Aaron,他在過去 10 年裡用這個震撼了世界,對吧,機器的動力學很重要,你真的可以看到。它以不同的方式移動。

一個例子是,就像我們這裡缺少的一樣,這裡沒有,比如達文西(da Vinci)機器人,人們用那個機器人做手術,比如,呃,那已經是一家市值超過千億的公司了,他們所做的只是通過,呃,通過這個進行遠端操作,這太神奇了,比如,這意味著沒有人不同意這樣一個事實:人腦非常強大,而硬體,所以這些問題有點,這就是為什麼機器人學總是這兩件事,比如方法可以不同,但最終它們都必須結合在一起。所以不是說一種硬體或另一種,比如,它是像,呃,但真實世界數據、人類數據、模擬以及從所有這些事情中擴展。

硬體挑戰:變異性、校準與跨體泛化

我認為這也有點像自下而上(bottom-up)和自上而下(top-down),對吧,因為現在我們主要是在控制架構上進行自上而下的討論。但我認為自下而上的方法也非常有趣,比如你如何學習靈巧性(dexterity),對吧?而且,呃,至少我們正在體驗到,在遠端操作中學習,比如手中快速的靈巧性,呃,我們不知道如何做到,比如,呃,我們不知道如何構建一個足夠快、足夠好並且真正給你觸覺反饋和所有這些東西的遠端操作系統,但機器人實際上可以學得很好。所以如果你只是給它一堆物體讓它玩,這是可以學習的,然後問題就變成了你如何在,呃,比如在你的遠端操作介面上添加一個抽象層。所以你不再說,嘿,我要像這樣捏取。你更像是在引導機器完成什麼任務,並允許系統實際學習靈巧性。而且,呃,是的。

是的,我想有一件事,我認為當我們試圖將大腦與硬體分開時,我們往往會忽略,那就是你試圖完成的任務。所以如果你,如果你考慮的是一整套物體很小、慣性上無關緊要的任務,嗯,是的,你可以將大腦與身體的很多部分分開。但我認為現實是,我們想要製造這些機器的目的,大多數都超出了我認為很多人開始時做的簡單桌面任務。如果你想舉起大的、重的、複雜的物體,或者你想接觸鋒利的鈑金零件,或者你想處理熱的東西,因為你可以將一個人從製造環境中移走,讓他們遠離危險,並用機器人取而代之,那麼我確實認為硬體真的很重要,我認為它必須共同進化。

我認為我們可以將,你知道,一個帶有 API 的良好硬體平台與任何軟體大腦完全分離開來,這種想法,我認為有時候,你知道,這兩者需要共同進化,理解你的致動器的,那種,質量,它有多少,呃,嗯,摩擦力,呃,對於你能在模擬中多好地表示它,可能非常重要,例如。我認為,呃,我們需要更多時間,才能完全理解像 Groot 這樣的模型,例如,如何部署在 A 型機器人和 B 型機器人上,因為我認為我們還沒有足夠的數據點來說明一個模型將部署在所有這些不同種類的機器人上,並且最終的行為不會有顯著差異。如果我試圖拿起一袋薯片移動並放下它們,我認為這不重要。但如果我試圖拿起,你知道,一個高精度零件並將其組裝到另一個高精度孔中,這可能非常重要。所以我認為,對我來說,你是否真的可以將這兩件事分開,目前還沒有定論。這真的取決於,我認為。

可能反過來也行。比如一個硬體有很多大腦。是的。比如 NVIDIA 的一個硬體,很多公司在上面放了大腦。

所以,我認為 Aaron 實際上觸及了一個非常有趣的話題,也是一個非常困難的挑戰,即跨體泛化(cross embodiment),對吧?比如跨體泛化對一個模型意味著什麼?所以,讓,讓我們或許思考一下我們自己。我認為實際上人類非常擅長跨體泛化。比如任何時候你打開一個電玩遊戲並開始玩,你實際上就在做跨體泛化,對吧?比如如果你,呃,假設你知道,在遊戲中開車,或者像玩一些,像奇怪的角色,有時像非人類角色,然後過了一段時間,對吧,在你玩了一會兒搖桿之後,你會感覺到如何控制虛擬遊戲中的那個身體,過了一段時間你就能玩得非常好。所以實際上人類,人腦非常擅長跨體泛化。所以我認為這是一個可以解決的問題。我們只需要找到那組參數來實現這一點。

而且,呃,我同意 Aaron 的觀點,目前來說還為時過早。現在談論,比如完全的零樣本(zero-shot)跨體泛化還為時過早,意思是說你拿來一個機器人,模型就神奇地工作了。呃,我不這麼認為。對吧。我們還沒到那一步。嗯,但總有一天我們會的,我認為,比如實現這一點的一種方式是擁有大量不同的機器人硬體,甚至在模擬中擁有更多不同的機器人硬體。呃,所以之前我們的研究小組做了一個非常有趣的工作,但我會說仍然像是,一種玩具性質的,你知道,探索性的工作,叫做 Metamorph。所以我們做的是,在模擬中,我們程序化地生成了很多簡單的機器人,帶有,你知道,不同種類的關節連接。它,它可能看起來像蛇,看起來像蜘蛛,非常奇怪。但我們生成了數千個。然後我們使用一個機器人語法來標記化(tokenize),標記化機器人的身體,對吧?基本上將體現(embodiment)本身轉換為一個整數序列。一旦我們看到一個整數序列,對吧,然後我們就看到了 Transformers。Attention is all you need,對吧?我們看到了 Transformers。我們將 Transformers 應用到這整套數千個體現上。我們發現你實際上能夠泛化到第一千零一個體現。但同樣,這是一個非常玩具性質的實驗,超級早期。但我確實相信,如果我們能夠擁有,像一個通用的描述語言,並且我們有大量不同類型的真實機器人和模擬機器人,並且我們可以標記化它們,我們可以從它們那裡生成大量數據,那麼所有的體現就變成了這種宇宙,體現的空間,向量空間,也許一個新的機器人就會在分佈內。

我還想補充一點,這不僅僅是一種智力上的好奇心。它正在變成一個非常現實的問題。對吧?所以,嗯,我,我想所有在座的,呃,硬體公司創辦人都有這個問題,你擁有不同世代的機器人,你在上一代收集的數據和你基於該數據訓練的模型。它無法泛化,或者性能顯著下降,甚至對你自己公司的 V2 和 V3 機器人也是如此。實際上,呃,比如甚至忘了那個,在同一版本的機器人之內,由於製造,由於所有微小的,對吧,缺陷,這是一個物理世界,它很混亂,對吧,由於所有這些混亂,呃,不同的機器人甚至不總能完美地複製同一個模型,對吧,你甚至在一代機器人內部就存在跨體泛化問題,更不用說跨世代,更不用說跨不同公司和設計。所以它正在變成一個現實問題,我認為我們只是觸及了表面。

是的,老實說,現在的多樣性並不多。如果你看看人形機器人領域,它,我們幾乎都在研究相當相似的東西。它是,它是我們身體的複製品。嗯,在 Boston Dynamics,我們決定只為我們的夾爪使用三個手指,你知道,這是在挑戰擁有完全擬人化手的趨勢。嗯,我們發現,就像,你知道,人類非常擅長將自己映射到甚至只有三個手指上,對吧?所以,你可以讓一個遠端操作員操作一個三指夾爪,在遠端操作台上訓練幾個小時後,他們幾乎能做你用五個手指做的所有事情。所以我認為這裡有很大的探索空間。嗯,我認為因為現在每個人都在努力打好基礎,我們還不夠勇敢。但我認為將會發生的是,呃,呃,一旦你看到這些泛化開始在我們的模型中顯現出來,你會看到,你會看到人們稍微偏離這些。這可能是好事,也可能是壞事。我認為,你知道,我們最終可能會得到看起來,呃,與人類足夠不同以至於令人害怕的機器人。但是,呃,我認為僅僅在操縱器內部,就有如此,一個豐富的機會空間。我認為 Agility 有,你知道,一個與你在這些其他人形機器人上看到的完全不同的夾爪,他們仍然能夠完成其中一些相同的任務。所以,我認為這在未來幾年將是一個令人興奮的話題。

是的,Aaron,你給我一千個不同的 Atlas,我會為你解決它。好的。好的。成交。

嗯,我覺得你們已經回答了我下一個問題,那個問題是專門關於硬體的。所以,謝謝大家。嗯,但我想繼續這個話題,因為這是一個非常有趣的挑戰,你們都有非常深入的見解,而且來自獨特的視角。你會說,你們剛才談論的,我的意思是,即使是你,Jim,當你更多地提到同一個製造出來的機器人,它的表現可能會不同。這要看情況。你會說這是目前在硬體方面最大的挑戰嗎?

我,我想這絕對是挑戰之一。嗯,這也促使我們開始研究跨體泛化這一系列研究,關於我們如何彌合其中一些差距。嗯,但我會把這個問題留給這裡所有的產品專家。

這又回到了我認為你會發現這是工具箱其餘部分發揮作用的地方,對吧?所以如果你製造了一個,呃,擁有非常好校準方法的機器人,如果你製造了一個你懂得如何表徵的機器人,如果你在關節級別控制上做了很多出色的工作,對吧,那些遠在 AI 之下的東西,那麼我認為其中一些事情就不那麼重要了。所以,我認為當你有一個你無法表徵、你沒有校準的機器人,呃,它從一個個體到另一個個體有很大變異性,而你只是隨便給它一個控制器,無論是 AI 策略還是其他什麼,我認為你會發現輸出的變異性很大。嗯,但我認為你現在可以做很多工作來最小化這個差距。而且我,我想你可能在這裡也有一些想法。

是的,我認為,呃,這方面的另一個 पहलू是,你知道,把機器人部署到現實世界中,進行製造,看看你有什麼樣的變異性。你確實會得到很多經驗,這些經驗會反饋到你構建的流程中。嗯,所以一個很好的例子是,你知道,Digit 有一個完全學習的恢復行為,對吧?我們一直在現實世界中部署它。它,它在我們的生產系統上。呃,我們用來訓練它的領域隨機化(domain randomization)和,嗯,數據的多樣性,來自於,它反饋自我們在現實世界中經歷的,以及我們機隊中所有 Digit 的變異。嗯,結果證明,呃,我們做了如此多的領域隨機化和,和強化策略,以至於當我們將策略轉移到我們剛剛首次亮相的新機器人時,它重了大約 10 公斤。它是一個更大的框架。策略實際上一次性就轉移到了這個全新的機器人上,運動學略有不同,負載更重,一切都不同。嗯,這是因為我們一直花費所有這些時間,像是強化和,呃,使所有模擬到現實(sim-to-real)的轉移更加穩健,真正理解像是足部接觸和,嗯,所有這些部分的細節。所以我確實認為,隨著經驗的積累,你在跨體泛化方面會做得更好,並不是說你總是註定需要,像是非常仔細地查看機器人的製造序列號。有一定程度的是,當你這樣做並且獲得現實世界的經驗時,你會更了解在訓練流程中需要捕捉的槓桿是什麼。

我認為當你從數百台機器人發展到數千台時,你會面臨這個問題。這不是一個選擇。當你有數千或數十萬台機器人時,你不可能為每台機器人調整你的軟體堆疊。所以,我認為這只是必須發生的事情。

我有點同意你們倆的觀點,但,就像,我非常同意這裡的觀點,校準很重要。它非常重要。是的。嗯,但我認為這實際上非常有趣,而且,呃,也許有點太深入了,但,就像,當你進行領域隨機化時,你實際上在教你的系統,對吧,要保守。你教你的系統,就像,哦,如果我不知道這樣做會發生什麼,我無論如何都要安全。是的。這有點掩蓋了你的動力學。所以這真的取決於你想要實現什麼。就像,如果你進行領域隨機化,你不會從系統中獲得相同的性能。但當然你會得到非常穩健的東西。所以如果你做了非常好的校準,你可以,就像,從你的系統中獲得更多。所以從長遠來看,這會很重要。

然後我認為現在有一些非常令人興奮的工作正在進行,將機器人歷史添加到模型的上下文中。所以你對於每一個單獨的機器人,你獲取該機器人的一些運行時數據,並將其放入歷史記錄中,放入實際模型的上下文中,然後它在上下文中學習,就像,它自己的動力學,這實際上效果出奇地好。呃,我的意思是,我們,這,這真的很酷,這有點像得到,呃,這就是我們稱之為 RMA(Rapid Motor Adaptation)的工作。所以這就是這個想法。

但我想對這個,呃,呃,這件事給出一個稍微不同的風味,即你無法跨版本更改模型是一個大問題,比如,呃,而且很難期望世界上只會有一個機器人,一家公司,所有的機器人,這是不可能的,就像,就像汽車,有那麼多汽車公司,手機,那麼多手機公司,對吧。但問題在於,對於它們,甚至對於,像,呃,對於所有其他應用,有那麼多 NVIDIA 製造的 GPU,但你有 CUDA 層,它將你從中抽象出來。呃,對吧,對於這個,對於操作系統也是如此。當涉及到解決,呃,機器人學問題時,機器人學的等價物是什麼。

所以這裡我會說,對於所有其他領域,這裡有一個稍微不同的看法,因為我們總是從硬體中被抽象出來,無論是視覺、語言,比如它就是那樣,比如如果一家新公司要進入,比如說 AMD 或任何其他公司,他們必須確保其他人可以無縫地運行他們的 NVIDIA 代碼,或者他們在 NVIDIA GPU 上運行的代碼,在他們的 GPU 上,這是他們的負擔,不是,不是軟體的負擔。對於 AI 的類比是我們正在構建的機器人大腦。我們不應該構建只適用於某個機器人的大腦,而應該是能夠適應機器人的大腦。這就是主要的區別,比如人類擁有的是,不是,不是一個可以做很多事情的系統。它是可以學習做很多事情的系統。我們腦子裡裝的是一個學習引擎,比如它可以即時學習。比如無論你聽到什麼,你都在即時學習和即時適應,這將是主要的突破,比如 AI 如何應用於其他一切與應用於機器人學之間的主要區別。比如對於機器人學,我們真正將要部署的是這些迷你學習引擎,呃,而且它們,因為很多事情會發生,比如忘了其他人、其他汽車等等,甚至基本的事情,你自己的身體,如果我去做鍛煉,1 小時鍛煉後,我的手很酸,呃,我必須拿起牙刷甚至一個瓶子,我現在有了一個不同的身體,因為我的身體現在需要更大的扭矩來獲得與鍛煉前相同的輸出。所以我們的大腦在每一微秒到分鐘到,呃,長時間內都在即時適應這些正在發生的變化。這就是,呃,我認為應該是或將會是的主要區別,當這些 AI 模型應用到機器人上時,與它們如何應用於其他任何地方相比。就像其他任何地方的研究一直是簡單的訓練、部署、訓練、部署,你不必擔心適應性,沒有變化,因為 NVIDIA 在照顧你,隨著 GPU 變得更好,你被照顧得很好,任何公司進來,你都被照顧得很好。但在機器人學中,這將是區別,你將部署學習引擎,這就是為什麼這是 AI 一個非常不同的應用,與我們迄今為止看到的任何應用都不同。

但我認為總的來說,這種區分,比如機器人 AI 和其他數位 AI,我也認為會消失。對吧?所以我認為我們現在問「AI 能為機器人學做什麼?」這個問題問得太多了,而我們沒有問「機器人學能為 AI 做什麼?」這個問題。因為當你真正在現實世界中採取行動,你有一個假設,你採取一個行動,你觀察結果,並且你在學習,這就是我們學習的方式,對吧,我們最近看到很多推理模型,例如,在數學方面非常出色,在程式碼方面非常出色,因為它是可驗證的。你可以去看看,就像,我做對了嗎?嗯,機器人有點讓你對所有事情都能做到這一點。這就是我們學習的方式。從這個意義上說,我認為我完全同意。

另一個例子是幻覺(hallucination)。幻覺在 LLMs 中是一個大問題。你聽說過機器人產生幻覺嗎?比如這不是我們討論的話題。為什麼?因為機器人不能產生幻覺。因為如果我必須產生幻覺,如果我把這個瓶子從這裡推到這裡會發生什麼?我可以試試看。它會掉下去。我能看到。我不需要。我通過互動學習。所以既然我互動,互動就是幻覺的敵人,因為當你互動時,幻覺就消失了。而當你從被動數據中學習時,數據來自維基百科,你無法去驗證所有事情,除非是數學或編碼,那裡幻覺問題較少,因為你實際上可以驗證答案。是的。

所以發生的情況是我們得到了更多的數據。就像你說的,我們翻轉了金字塔。Yuki 不是這麼說的嗎?我們翻轉了金字塔,現在我們讓這個,嗯,機器人數據遠大於網際網路數據,我們可以解決我們今天遇到的很多問題,我們所需要的就是更多的 GPU。

我認為我們絕對,這永遠是答案。是的,這就是我們都在這裡的原因,對吧?嗯,我認為你絕對可以有幻覺,對吧?它以不同的方式表現出來,那就是機器人的預期結果與現實世界中發生的情況之間存在偏差。現在它是可驗證的,就像程式碼生成幻覺在無法編譯時是可驗證的一樣,對吧?但它表現為,你知道,機器人做了一個不可行的軌跡,或者,或者產生了超出我的意思是,因為你可以互動,所以它可以消失。好吧,如果你沒有互動的能力,它就永遠無法消失,比如,呃,例如,你永遠無法知道,比如,呃,比如你是否住在這個地方?如果我無法驗證,我就永遠無法糾正我的幻覺。但在機器人學中,你大多可以因為互動而糾正。

我有一個非常好的實際例子,因為我們做了這個,呃,實際上是去年,呃,我們遇到了辦公室沒人放下馬桶蓋的問題,我們用了我們之前的一個機器人 Eve,呃,有些輪子,但它仍然非常靈活。所以我們讓它自主地進去看馬桶蓋是掀起還是放下。我們在這上面運行了,呃,GPT-4o,對吧?結果是 50% 的概率是掀起或放下。就像它完全不知道。是隨機的,對吧?它無法判斷馬桶蓋是掀起還是放下。嗯,這有點像一個邊緣案例,因為它通常在這些事情上做得很好。但我們讓機器人去關上馬桶蓋。這是一個自主策略。所以它會四處走動,呃,檢查浴室,如果馬桶蓋是掀起的,就把它放下來。那真的很有趣,我們玩得很開心,我們對此笑了很久,但它實際上是在現實世界中閉合了迴路,對吧?所以現在模型可以得到「蓋子已放下」的反饋。我知道蓋子是放下的。我,我關上了它。我知道它是放下的。而你告訴我它是掀起的。你錯了。這類似於在其他地方閉合迴路,我們使用 AI 與例如 API 或編譯器或類似的東西進行互動,在那裡你讓它產生一些結果,然後你讓它通過一個驗證階段,你可以將其反饋到系統的上下文中。只是在這種情況下,迴路閉合稍微慢一些,因為它要通過,是的。

現在的問題是我們不知道如何在一般情況下做到這一點,對吧?我們可以,我們可以為一個特定的事情設計架構,比如馬桶蓋,現在的問題是你如何提出這個問題的某種表述,你將所有事情都根植於現實世界中,目前還沒有人知道如何做到這一點。

在現實世界中的學習速度將會慢得令人痛苦,對吧?所以我們可以在現實世界中學習這些東西,因為掉落東西是有後果的。重力使它下落。你可以判斷出發生了不好的事情,對吧?但是我們用物理機器人探索的速度。我的意思是,那又回到了數據的混合,對吧?我的意思是,你可以做這些非常令人興奮的小事情,但是你需要做多少千次或百萬次這樣的事情才能獲得足夠的數據?所以我認為,呃,問題實際上仍然是,我們能否負擔得起產生真實世界的數據?

你還有模擬。所以模擬也是,也是可以互動的。所以我認為這是互動數據,你可以兩者兼得。我同意。模擬也需要更多的 GPU。

未來展望:未來 2 至 5 年及更長遠的發展

好的,我知道我們快到時間了,我非常想用這個問題來結束,因為我對此非常好奇。在未來兩到五年內,你們認為這個領域會走向何方?我會讓這個問題保持模糊。隨你們怎麼回答。我很想請 Burnt 先開始。

好的。所以,兩到五年,考慮到該領域目前的發展速度,這是一個相當大的範圍。所以,但是,但是讓我,像,我打算作弊,我打算先說我認為這需要 10 年才能完全實現。嗯,而且很容易說 10 年後會怎樣。我認為到那時,我們將經歷社會的變革,就像幾百年前電力帶來的那樣,現在我們早上打開電燈開關時已經理所當然了。這將發生在數位和物理勞動領域,天哪,這是一個多麼有趣的時代,能夠活著經歷這一切,我認為我們可以真正專注於那些讓我們之所以為人的東西,呃,在我們正在創造的那個社會中。

五年,我希望我們能達到那裡,我認為那很有野心,我們會努力爭取的,呃,我認為目前沒有人知道,呃,我認為這真的取決於社會採納機器人的速度有多快,以及我們擴大製造規模的速度有多快。我們正處於,就像,它變得有用的臨界點,對吧?所以,我會說我們現在擁有的產品,舉個例子,目前在家裡是有用的。它不完美。不像你什麼都不用自己做了,但它有用而且有趣,然後你可以從那裡開始加速,呃,希望它不像自動駕駛汽車那樣,呃,不會比我們預期的晚十年。但我確實認為,像,呃,三到五年後,它會相當普及到大多數人中間,即使不是每個人都有機器人,人們也會認識有機器人的人,它們會普遍成為社會的一部分,呃,涵蓋從消費者和家庭到工廠、物流等一切。

是的,我可以接著說。呃,有句話說人們常常,呃,高估短期的進展,但他們常常低估長期的進展,我認為這可能是 Bill Gates 或其他人說的,呃,而且,呃,所以我不能,同樣,這是一個免責聲明,但我認為關於機器人 AI 與 LLMs 或 VLMs 不同的一點獨特之處在於,LLM,LLM 必須真正幾乎完全解決問題才能真正有用,比如,呃,無論是編碼,無論是,呃,通用,呃,寫作或任何事情,它必須非常非常好,比如 NLP 早期就有好的系統,但直到你達到,像,非常高的性能,這些才有用。但這對機器人 AI 來說不完全正確,因為,呃,我們不必完全解決機器人學問題,機器人才能有用,這只是,只是想說,像,即使在今天,已經有,像,數十萬到數百萬的機器人已經部署出去了。我們很多東西今天都是由機器人製造的,對吧?所以它們已經在那裡了。它們已經存在了。

那麼這裡的關鍵部分是什麼?機器人學的關鍵在於任務的劃分。解決所有地方所有任務的機器人可能還很遙遠。所以我不會對此做任何預測。但我們將開始看到能夠,能夠解決少量任務或一個任務或兩個任務或任務專家的機器人。即使它們也超級有用,呃,因為有好幾個任務,很難找到勞動力或僱用。我今天和一些,呃,公司談過,他們正在讓退休人員重新工作,因為他們特定用途的勞動力短缺。對於專業機器人來說,它們會更快地出現,而且,呃,通用型機器人會更晚,但在機器人學中,有用性從第一天就開始了,不像,呃,不像語言。

這太真實了,如果自動駕駛汽車不危險的話,問題在 2015 年就解決了,你可以在 2015 年坐上一輛能載你四處走的汽車,而且它表現得相當不錯。

以一種方式解決了,因為它不是人類方式解決的。呃,是的。

是的。我認為挑戰的一部分在於,嗯,採納不僅僅是一個技術問題。它,它也是,你知道,像安全這樣的事情,像,嗯,社會,呃,採納也起著作用。所以在三到五年內,我們可能會看到的是,某些領域的機器人比我們預期的多得多,而某些領域的機器人則少得多。呃,我認為重要的事情是,我們確實看到了機器人真正從歷史上非常單一用途走向這個概念的頂峰,即人們幾乎期望它們可以具有多種用途,也許不是通用目的,但具有多種用途,這正在成為,就像,人們的期望,以及,呃,我們能夠用這些新的基於 AI 的平台展示的是,嘿,一個,一個硬體可以有效地做不止一件事。我認為這是在未來三到五年內將持續存在的期望,作為人們正在努力的新基準線,你知道,你們所有人現在都看到了這一點並相信它,這很棒,對吧,因為現在你們將,你們將在社會文化層面上承載這種期望,並說,像,你知道,嘿,為什麼我不能有一個機器人在家裡做三四件事,或者在我的情況下,你知道,在倉庫或物流設施中做五到十件事,像那樣,那樣應該是常態。我認為真正推動它的是,是人們想要那些東西,這真正推動了,呃,投資和專注於為我們實現這些東西。是的。

當人們問這個問題時,他們真正尋求的是具體的,特定的,比如我將在哪個日期擁有一個機器人,對吧?它將做所有這些事情。我認為,呃,這方面真正的問題是,對於每個人的期望沒有一個統一的標準,對吧?所以我通常問的問題是,你知道,我們什麼時候會有一個對我們來說像我們的汽車一樣有價值的人形機器人?我完全不知道,對吧?我們的汽車每天在最極端的天氣下工作。考慮到投入其中的材料和努力,它的成本幾乎微不足道。嗯,即使是汽車本身,也還沒有完全,呃,觸及人形機器人可能為我們生活增加的價值。所以我認為,你知道,我,我也屬於,像,10 年或更長時間的陣營。我認為這是典型的,像,技術專家的答案。如果你問一個創辦人,他們會說明年。如果你問一個技術專家,他們會說大約 10 年,對吧?而 10 年只是意味著我們很難具體量化你將擁有什麼。

我認為我們應該關注的是進展的速度和灘頭陣地(beachheads)在哪裡,對吧?在座的每一個,呃,團體都在不同領域建立一個有意義的灘頭陣地。隨著時間的推移,這些東西將會增長。那個空間將從一堆點,對吧?在那裡,你知道,Agility 在倉庫裡解決問題。我們有機器人在,呃,人們家裡。嗯,你知道,我們將在汽車工廠工作。我認為你會看到從每一個這些灘頭陣地,你會看到增長,對吧?這不會是一夜之間的事情。我認為這裡沒有人能預測未來 5 年並確切地說出我們將在哪裡,但我認為我們將看到這種,這種增長。很快所有這些事情都將開始重疊,總有一天我們會擁有自動駕駛汽車。當你回顧那個市場的歷史時,你知道,有很多,呃,嗯,關於他們多麼糟糕地預測了,你知道,我們何時會有自動駕駛汽車的負面評論。我認為其中很多來自於社群中一些成員關於它會多快到來的聲明。但我非常感激我的汽車有自動車道輔助功能,而且,你知道,不會撞到前面的車,並且,並且,並且阻止我倒車撞到東西。所有那些神奇的東西都來自於擁有自動駕駛汽車的夢想。哦,順便說一句,你現在就可以坐上自動駕駛計程車。所以,是的,花了更長一點時間。嗯,人形機器人也會如此。我認為只要社群,呃,興奮,投入,並且,並且意識到這是一場持久戰,對吧,要讓專業機器人在商業環境中提供價值,我認為我們,我們將在未來一兩年內擁有它。嗯,Agility 已經在向這個領域交付機器人了。當我們讓那些機器人完成 10、15、20 個任務時,那將是在下一個 5 年的範圍內。但是當我們要解決我們想像中所有行業的所有問題時,嗯,我認為我們需要繼續夢想,我們需要繼續努力,而且,而且這個行業將不得不繼續投入精力,我認為還要幾十年,直到我們解決了所有那些邊緣案例。

我,我真的很喜歡,呃,Deepak 說的,你知道,人們傾向於高估短期而低估長期。所以讓我把它分解為短期和長期。我認為未來兩到五年,呃,從技術角度來看,我們將能夠充分研究體現縮放定律(embodied scaling law)。所以我認為大型語言模型中最重要的時刻是,呃,最初的 Chinchilla 縮放定律,呃,基本上是那條指數曲線,你投入更多計算,你擴展,呃,數據量,你擴展參數數量,你會看到智慧指數級上升,對吧。呃,我認為我們還沒有類似的東西用於機器人學,因為縮放定律對於機器人學來說太複雜了,對吧,你可以在模型上擴展,你可以在硬體機隊上擴展,對吧,真實機器人數據,那模擬數據縮放定律呢?那網際網路數據縮放定律呢?那神經模擬,神經,呃,夢境,對吧,縮放定律呢,當你生成大量影片時。所以我們將能夠研究所有這些東西,這樣也許,你知道,五年後或更早,那時我們會在那張圖上,呃,在屏幕上,你確切地知道你需要購買多少 GPU,你的機器人會好多少。所以我們很快就能在短期內定量地回答這個問題。

現在,呃,讓我們談談 20 年後會發生什麼。你知道,呃,每次我,我在實驗室待到很晚,機器人做一些奇怪的事情壞掉了。我就會,啊,太沮喪了。讓我想想 20 年後會發生什麼,然後我就能繼續下去。對吧?所以 20 年後,有幾件事我非常興奮,我認為離我們並不遙遠。

一個是,呃,機器人學,呃,加速科學發展,對吧?所以我在生物醫學領域有一些朋友,做一個實驗實在是太耗時了,而且太費力了,像所有那些博士生都需要待在實驗室裡,對吧?照看那些,像,老鼠,對吧?所有那些,像,你知道,培養皿裡的,的,的細胞。我們何不將所有這些自動化呢,對吧?自動化科學。那麼也許所有的醫學研究就不會花費十億美元來做了。它們將會規模化,因為我們得到了這個 API 來加速物理世界,對吧?使用智慧。也許那將是 Groot,呃,第 10 版或什麼的,我希望如此。對吧?所以這是我非常興奮的一件事。

另一件事是機器人學自動化機器人學本身。對吧?所以我們為什麼不能讓機器人互相修理呢,對吧?所以我們看到所有那些大工廠在製造機器人,但是讓機器人本身組裝下一代機器人怎麼樣?我認為這根本不是科幻小說,因為實際上在 LLM 社群,再次,他們不幸地領先於我們,但在 LLM 社群,人們正在研究 AutoML,意思是說我們能否提示這些 LLM 進行深度研究,對吧,找到下一個最好的 Transformer,找到下一個最好的智慧架構本身,人們正在積極地做這件事,就在我們說話的時候,可能 LLM 會先解決這個問題,然後我們會抄作業,我們會讓物理世界進行這種遞歸式的自我改進,隨著我們的進步。我認為這將會發生,對吧,不是在 100 年內,僅僅在 20 年內,這絕對會發生。

所以我打算以一個光明的註腳結束,我認為我們這一代人,我們所有人都出生得太晚,無法探索地球,我們出生得太早,無法前往其他星系,我們出生得恰逢其時,可以解決機器人學問題,所有會動的東西都將是自主的。

我喜歡這個。

我的意思是,我認為這是最好的結束語。非常感謝大家,呃,感謝我們的座談嘉賓的到來,分享你們的想法,不僅是關於我們現在在哪裡,還有我們將走向何方。在大家離開之前,請注意,我們不會進行傳統的問答環節,但我們將會去移除我們的麥克風,回到這裡,對於任何感興趣的人,請隨意走上舞台,你們可以直接向,呃,座談嘉賓提問,對於任何感興趣的人。所以,我們只是去後台,移除我們的麥克風。我們會回來回答任何問題。請上台來。