原文連結: NVDA GTC- Jesen Huang演講

歡迎大家,請歡迎Nvidia的創辦人兼CEO Jensen Wong上台 [音樂] 歡迎來到GTC,這真是令人驚豔的一年。我們希望在Nvidia做這件事,所以透過人工智慧的魔法,我們將帶你到Nvidia的總部。我想我帶你來到Nvidia的總部,你覺得怎麼樣?這就是我們工作的地方,這就是我們工作的地方。真是令人驚豔的一年,我們有許多令人難以置信的事情要談。我只想讓你知道,我站在這裡沒有保護網,沒有劇本,沒有提詞機,我有很多事情要講,所以我們開始吧。

GeForce 5090 與 Blackwell 世代

首先,我要感謝所有的贊助商,所有參與這次大會的了不起的人,幾乎每個行業都有代表,醫療保健業也在這裡,交通運輸,零售,天啊,電腦產業,電腦產業的每個人都在這裡,所以看到你們所有人真的很棒,感謝你們贊助這次活動。GTC從GeForce開始,一切都從GeForce開始,今天我手上有一個GeForce 5090,5090,難以置信的是,25年後,25年後我們開始做GeForce,GeForce現在在全球賣光了。這是90,Blackwell世代,帶來的是49,看它有多小,體積小了30%,散熱效能提高了30%,驚人的表現,根本難以比較,而這一切的原因就是人工智慧。GeForce將CUDA帶給了世界,CUDA促成了AI,而AI現在回來革新了電腦圖形。

你現在看到的是即時電腦圖形,百分之百的路徑追蹤,每個像素都在渲染,人工智慧預測其餘的15個像素,想一下這一點,對於每個我們數學上渲染的像素,人工智慧推斷其餘的15個,並且必須做到如此精確,讓圖像看起來正確,並且在時間上是準確的,這意味著從幀到幀,無論是往前還是往後,因為這是電腦圖形,它必須保持時間穩定。

令人難以置信,人工智慧已經取得了巨大的進展,這才過了10年,我們談論AI的時間比這稍長一點,但AI真的進入全球意識大約十年前,從感知AI開始,計算機視覺、語音識別,然後是生成式AI。在過去的5年中,我們主要集中於生成式AI,教AI如何從一種模態轉換到另一種模態,從文本到圖像,從圖像到文本,從文本到視頻,從氨基酸到蛋白質,從性質到化學物質,所有不同的方式,我們可以利用AI來生成內容。生成式AI根本改變了計算的方式,從檢索式計算模型,我們現在擁有了生成式計算模型,而我們過去所做的幾乎一切,都是關於提前創建內容,儲存多個版本,並在使用時提取我們認為合適的版本。現在,AI理解上下文,理解我們的需求,理解我們請求的含義,並生成它所知道的內容。

如果需要,它會自行檢索資訊,增強自身理解,然後為我們生成答案。AI不再只是檢索資料,而是生成答案,這徹底改變了計算的方式。過去幾年,計算的每一個層面都被徹底改造。在過去兩三年裡,我們迎來了一個重大的突破,一個人工智慧的根本進展,我們稱之為「Agentic AI」。

Agentic AI的意思就是,這個AI具有「自主性」,它能夠感知並理解周遭情境,它能夠推理,而這點非常重要——它能夠推理如何回答問題或解決問題,它也能夠規劃行動,能夠計劃並採取行動。它可以使用工具,因為它現在能理解多模態資訊。它可以進入一個網站,理解那個網站的格式、文字、影片,甚至可以播放影片,從中學習,理解它所學的內容,然後回來並運用那些新獲得的知識來完成任務。

Agentic AI的基礎,當然就是推理能力,而這是一個全新的能力。接下來,下一波浪潮已經發生,我們今天會談很多,那就是「機器人技術」,它是由「物理AI」驅動的。物理AI是一種能夠理解物理世界的AI,它理解摩擦力、慣性、因果關係、物體恆存性(物件如果消失在角落,並不代表它不存在,它只是看不見而已)。

這種理解三維物理世界的能力,將會開啟AI全新的時代,我們稱之為「物理AI」,它將驅動機器人技術。每一個階段、每一波浪潮,都為我們帶來新的市場機會,也帶來更多新夥伴加入GTC。

因此,現在GTC已經人滿為患。唯一能夠容納更多人的辦法,就是我們必須讓聖荷西變得更大,我們正在努力,我們還有很多土地可以利用,我們要擴大聖荷西,才能讓GTC繼續成長。

我現在站在這裡,真的希望你們可以看到我所看到的畫面。我們正站在一個體育館的中央。去年是我們疫情後第一次現場舉辦,現場就像一場搖滾演唱會,GTC被形容為「AI界的伍德斯托克音樂節」。而今年,它被稱為「AI界的超級盃」。唯一的差別是,在這個超級盃裡,每個人都是贏家,每個人都贏。

每一年,更多人來參加,因為AI可以解決越來越多不同行業、不同公司的複雜問題。今年,我們會談很多關於Agentic AI與物理AI的內容。

在這些AI浪潮背後,支撐它們的核心,有三個根本的關鍵:

第一個問題,是「如何解決資料問題」。因為AI是一種資料驅動的計算科學方法,它需要資料來學習,它需要數位經驗來累積知識,獲取學習經驗。你要如何解決資料問題?

第二個問題,是「如何解決訓練問題」,而且不需要人為介入。因為「人在環中」這件事是有本質限制的——我們的時間有限,而我們希望AI能夠以超人類、超即時的速度學習,以人類無法企及的規模持續進化。所以第二個問題就是,你要如何訓練模型?

第三個問題,是「如何擴展」。你要如何找到一個演算法,讓你投入的資源越多,不論是什麼資源,AI就會變得越聰明?這就是所謂的「擴展定律」。

而在去年,這正是全世界幾乎都搞錯的地方——AI的計算需求、擴展定律,比大家想像的還要更堅韌、更持久。

推理AI的計算挑戰

事實上,由於 Agentic AI 和推理能力的出現,所需的運算量已經超越我們原本的想像,現在所需要的計算量,比起一年前我們預估的,輕而易舉就是多出一百倍。

讓我們來推理一下為什麼會這樣。首先,我們從 AI 能做到的事情開始,然後倒推回去。Agentic AI 的核心就是推理。現在我們擁有可以推理的 AI,而推理本質上就是將問題分解,一步一步解決。它可能會用幾種不同的方法來處理同一個問題,然後選出最佳解;或者它會用不同方式反覆解同一個問題,確保答案一致性。甚至在計算出答案之後,還會把結果代回原來的方程式裡(例如二次方程式)確認是否正確,而不再只是「一次性輸出」。

你還記得嗎?兩年前我們開始和 ChatGPT 合作的時候,雖然它已經是奇蹟,但面對許多複雜或即使是簡單的問題,它也常常答錯,原因很簡單,因為它只會「一次性」根據預先訓練的資料,模仿性地吐出一個答案,就像賭一把。

但現在,我們已經有能夠「逐步推理」的 AI,這就是所謂的「Chain of Thought(思路鏈)」技術。它會做一致性檢查、路徑規劃、嘗試不同策略,我們現在擁有可以將問題逐步拆解並逐步推理的 AI。

想像一下,這對計算量有多大的影響。AI 的基礎技術還是一樣:不斷預測「下一個 token」。只不過,現在它預測的下一個 token,代表的是「推理的第一步」。然後,它會把「第一步」的輸出,再送回模型裡面,作為新的輸入,然後生成「第二步」,接著「第三步」、「第四步」……。

所以,它不是像以前一樣只是生成一個字、一個詞,而是生成一整段文字,這段文字代表的是推理過程中的一個步驟。結果就是,生成的 token 數量暴增。而我待會會展示給你看,這個增長至少是 100 倍。

「100 倍」是什麼意思?它可以是因為模型生成的 token 數量增加 100 倍,就像我剛才解釋的那樣;也有可能是模型本身更複雜,它每次生成 10 倍的 token,而為了保持回應的即時性、互動性,不讓人覺得它「在思考」很久,我們就必須以 10 倍的速度去計算。結果就是 10 倍 token × 10 倍速度,輕輕鬆鬆就等於 100 倍的計算量。

接下來你會在整場發表會裡看到,現在我們在推論(Inference)階段需要的計算量,已經遠遠超過過去。

那麼問題來了,我們要怎麼教會 AI 執行這樣的「思路鏈」推理?有一個方法,就是要教會 AI「如何推理」。

正如我剛剛提到,在訓練階段有兩個根本問題需要解決:第一,資料從哪裡來?第二,怎麼避免限制於「人工示範」?畢竟人力有限,我們無法提供無限的示範資料。

這幾年最大的突破,就是「強化學習」以及「可驗證的結果」。透過強化學習,AI 在一步一步嘗試解決問題的過程中,我們可以讓它不斷練習。而且人類歷史上有很多問題,我們早已知道標準答案。舉例來說,我們知道二次方程式的標準解法,我們知道畢氏定理和直角三角形的規則,我們知道數學、幾何、邏輯和科學裡許多不變的規律。

此外,我們還可以給 AI 訓練各種「受限制條件」的遊戲和謎題,例如數獨(Sudoku),或者其他有明確規則的問題。這樣的問題空間有上百種,我們可以輕易產生數百萬個不同版本的例題,給 AI 無限次機會,讓它一步一步練習推理解答。

同時,透過強化學習,只要它表現得更好,就能即時給它獎勵,讓它不斷進步。

結果就是:
當你把「上百種不同主題」、「數百萬個不同例題」、「AI 成千上萬次的嘗試」以及「每次嘗試中產生數萬個 tokens」全部加在一起,你就會發現,我們需要訓練的 token 數量是「兆」級別的規模。而透過強化學習,我們現在可以大量生成合成數據(synthetic data),用一種機器人式的方法,來教會 AI 如何推理。

這兩個因素結合起來,為整個產業帶來了前所未有的計算挑戰。而你可以從我接下來要展示的數據中看到,整個產業的反應有多麼劇烈。

我要展示的是「Hopper 晶片在四大 CSP(公共雲供應商:Amazon、Azure、Google Cloud Platform、Oracle Cloud Infrastructure)中的出貨量」,只是這四大 CSP 而已——不包含 AI 公司、不包含新創公司、不包含企業客戶,僅僅是這四家。你可以從比較 Hopper 的巔峰出貨年和 Blackwell(下一代晶片)第一年的出貨量,看出來整個 AI 已經來到了關鍵的拐點。

為什麼呢?因為 AI 變得更聰明了,它可以推理,所以它更「有用」。你也可以感受到它的「使用量大幅上升」,每次打開 ChatGPT,你都會感覺等候時間變長,這其實是一個好現象,代表有非常多的人正在密集使用這項技術。

同時,訓練這些模型、執行這些模型所需要的運算量也成長得非常驚人。Blackwell 才剛開始出貨,僅僅一年之內,你就可以看到 AI 基礎設施的成長速度有多快。

這種趨勢在整個計算產業中都反映出來。紫色部分是分析師對全球資料中心資本支出(CAPEX)未來幾年的預測——不只是 CSP,還包含所有大型企業資料中心。這張圖表顯示到 2030 年為止的成長趨勢。

我過去就曾說過,我預計全球資料中心的建置金額會達到 1 兆美元(trillion dollars),而且現在我相當有信心,我們很快就會達成這個數字。

目前有兩個趨勢同時在發生:

  1. 計算方式的根本轉變
    傳統的「手寫軟體 + 通用處理器(CPU)」模式已經走到盡頭。整個世界正在進行平台轉換,從「人類撰寫的程式碼在 CPU 上執行」轉變成「機器學習模型在 GPU 或專用加速器上執行」。這種計算方式現在已經超過臨界點(tipping point),全球的資料中心建置正好迎來這個轉折點。

  2. 對未來軟體形態的認知
    從前,我們「寫軟體」,然後「在電腦上執行」;未來,我們會透過電腦「生成 token」,由電腦自己創造內容。也就是說,電腦不再只是「資料檔案的檢索工具」,而是「生成工具(Generator)」。
    我稱之為「AI 工廠(AI factories)」。這些 AI 工廠的唯一任務,就是不斷生成這些令人驚奇的 tokens,然後我們再把這些 tokens 組合成文字、音樂、影片、研究成果、化學式、蛋白質或其他各種型態的知識和資訊。

因此,全球不只是建置更多資料中心,而是根本改變「資料中心的建置方式」。

接下來我要談一點細節,因為不是所有的加速都只是 AI。這張簡報,是我整場演講中最喜歡的一張,也是所有長年來參加 GTC 的朋友最熟悉的內容。因為這就是我們在做的事:不只是加速 AI,而是加速整個計算世界。

NVIDIA的計算框架與加速技術

就像我們需要 AI 框架來建構 AI 模型並讓它跑得更快一樣,我們同樣需要為物理、化學、生物、多物理(multiphysics)領域打造計算框架,並且把這些都加速起來。

你知道,各種不同的量子物理領域,都需要各種不同的函式庫和框架,我們稱它們為 CUDA-X 函式庫,是針對每一個科學領域所打造的加速框架。第一個非常令人驚艷的是 cuNumeric,Numpy 是全球最常用、下載次數最多的 Python 函式庫,去年下載次數達到四億次。而 cuNumeric 是一個零改動即可取代 Numpy 的加速解決方案。如果你們當中有人在用 Numpy,試試看 cuNumeric,你一定會愛上它。

CuLitho 是一個計算光刻(computational lithography)的函式庫。在過去四年裡,我們已經把整個計算光刻的流程搬上 GPU。計算光刻是晶圓廠(fab)裡的第二座工廠,一座工廠製造晶圓,而另一座工廠則負責製造「用來製造晶圓的資訊」。每一個產業、每一間公司,未來都會有兩座工廠:一個是生產產品的工廠,另一個是數學與 AI 的工廠。汽車會有一座工廠生產汽車,也會有一座工廠生產 AI;智慧音箱有一座工廠生產音箱,也會有一座 AI 工廠專門為音箱提供智慧。CuLitho 就是我們的計算光刻解決方案,我們和 TSMC、Samsung、ASML、Synopsys、Mentor 等夥伴緊密合作,獲得了難以置信的支持。我認為這已經來到臨界點,再過五年,每一張光罩、每一個光刻流程,都會在 NVIDIA CUDA 上處理。

Aerial 是我們的 5G 函式庫,把 GPU 變成 5G 無線電,為什麼不可以呢?訊號處理正是我們的強項。一旦我們做到這點,就可以在上面加入 AI,實現 AI for RAN,也就是 AI 驅動的無線接取網路(Radio Access Network)。下一代無線網路,將會有深度整合的 AI。為什麼我們要受限於資訊理論的極限?因為頻譜資源有限嗎?但如果加入 AI,就沒有那麼多限制了。

cuOpt 是數值和數學優化的函式庫,幾乎每個產業都在用它。你在規劃座位和航班、庫存與客戶、人員與工廠、駕駛與乘客時,都需要面對各種限制條件、大量變數,並且針對時間、利潤、服務品質、資源利用率等進行最佳化。NVIDIA 本身也使用 cuOpt 來做供應鏈管理。cuOpt 非常厲害,可以把原本需要好幾個小時才能完成的問題,縮短到幾秒鐘完成。這有多重要?這意味著我們可以探索更龐大的問題空間。我們宣布要將 cuOpt 開源。幾乎所有人目前使用的都是 Gurobi、IBM CPLEX 或 FICO,我們正與這三家公司合作,整個產業都感到無比興奮。我們即將大幅加速整個產業的運作。

Parabricks 是用於基因定序和基因分析的函式庫。MONAI 是全世界領先的醫療影像函式庫。Earth-2 是多物理(Multiphysics)模擬平台,可以預測超高解析度的區域天氣。cuQuantum 和 CUDA-Q 是量子運算函式庫,今年 GTC 我們將舉辦第一場 Quantum Day。我們幾乎與量子運算生態系中的每一家公司合作,不論是協助他們研究量子架構、量子演算法,或是打造傳統加速與量子計算的異質整合架構。這是一個非常令人興奮的領域。

cuTensor 和 cuTensorNet 是用於張量縮合(tensor contraction)的函式庫,用於量子化學當然也是如此。這整個軟體堆疊非常有名,很多人以為只有 CUDA 這一個軟體,但實際上,在 CUDA 之上還有一整套龐大的函式庫,已經整合到各種軟體生態與基礎設施當中,讓 AI 成為可能。

今天我要宣布一個全新的函式庫:cuDSS,我們的稀疏矩陣求解器(sparse solvers),對於 CAE(Computer-Aided Engineering)非常重要。這是過去一年最大的突破之一。我們與 Cadence、Synopsys、ANSYS 以及所有系統公司合作,現在幾乎每一個重要的 EDA 和 CAE 函式庫,都已經可以被加速。你知道最不可思議的是什麼嗎?直到最近,NVIDIA 自己都還是用一般 CPU 執行那些超慢的軟體,來設計出大家使用的加速電腦。原因就是,我們過去沒有針對這類問題的最佳化軟體,但現在有了。隨著產業邁向加速運算,整個行業即將被大幅提速。

cuDF 是用來處理結構化資料的 DataFrame,我們現在也提供 Spark 和 Pandas 的即插即用加速。這非常了不起。

最後,我們還有 Warp,一個物理運算的函式庫,專門為 Python 和 CUDA 打造的物理模擬函式庫。

我們有一個重大宣布,不過我稍後再說。這些只是讓加速運算成為可能的一小部分函式庫,這不僅僅是 CUDA。我們對 CUDA 感到非常自豪,但如果沒有 CUDA,沒有這麼龐大的安裝基礎,這些函式庫對開發者來說根本沒有用。對所有使用這些函式庫的開發者來說,你們之所以會使用它,是因為第一,它能帶來令人難以置信的速度提升,能帶來極大的擴展性;第二,因為 CUDA 的安裝基礎已經無處不在,存在於每一個雲端、每一個資料中心,由全球每一家電腦公司提供,真的是無處不在。因此,當你使用這些函式庫時,你所開發的軟體、你令人驚艷的作品就能觸及到全世界。

NVIDIA的未來計劃與路線圖

現在,我們已經到達加速運算的臨界點。是 CUDA 讓這一切成為可能,是你們所有人,這就是 GTC 的意義——生態系,是你們所有人讓這一切實現。因此,我們特別為你們製作了一段短片。感謝所有創作者、先驅者、未來的建造者,CUDA 是為你們而生。自 2006 年以來,超過 600 萬開發者、遍佈 200 多個國家使用 CUDA,並用它改變了運算世界。有超過 900 個 CUDA-X 函式庫和 AI 模型,你們正在加速科學,重塑產業,讓機器具備看、學習、推理的能力。

現在,NVIDIA Blackwell 的速度是第一代 CUDA GPU 的 5 萬倍。這種指數級的速度與規模成長,正在縮短模擬與即時數位分身之間的差距。而對你們來說,這仍然只是開始。我們迫不及待想看到你們接下來會做出什麼。我熱愛我們所做的事,但我更愛看到你們用它所做出的成就。在我 33 年的職業生涯中,最讓我感動的一句話是,有一位科學家對我說:「Jensen,因為你的工作,我可以在我有生之年完成我畢生的志業。」如果這句話不能打動你,那你真的已經沒有感覺了。所以,這一切都是為了你們,謝謝大家。

好,接下來我們要來談 AI。不過,你們知道,AI 是從雲端開始的。它會從雲端開始是有原因的,因為 AI 需要基礎設施。這叫做機器學習,如果科學的名字叫機器學習,那就需要一台機器來進行科學。機器學習需要基礎設施,而雲端資料中心正好擁有這樣的基礎設施,同時還有卓越的電腦科學與研究資源,這就是 AI 在雲端和雲端服務供應商(CSPs)起飛的完美條件。但 AI 不會只侷限在那裡,AI 將會無所不在。

我們會用很多不同的方式談 AI。當然,雲端服務供應商很喜歡我們的領先技術,他們喜歡我們有完整的技術堆疊。因為如同我剛剛解釋過的,加速運算並不是只有晶片,它不只是晶片加上函式庫,而是一整個程式模型;晶片、程式模型,還有上面層層疊疊的軟體,那整個技術堆疊非常複雜。每一層、每一個函式庫,都是像 SQL 一樣的存在。SQL,你知道的,是 IBM 發明的儲存計算重大革命;SQL 只是一個函式庫,而我剛才展示給你們看的,是一大堆函式庫。AI 的領域裡,還有更多更多。這個堆疊非常複雜。CSPs 同時也很喜歡 NVIDIA 的 CUDA 開發者,因為他們也是 CSP 的客戶。歸根究底,他們是在為全世界建立基礎設施,而這個豐富的開發者生態系受到高度重視與感激。

現在,我們要把 AI 推向全世界,而全世界的系統組成環境、作業系統、領域專屬的函式庫、使用方式都各不相同。AI 在進入企業端、進入製造業、進入機器人、進入自駕車、甚至是那些開始經營 GPU 雲端的新創公司時,都會有不同的需求。有一群公司,大概二十家左右,在 NVIDIA 崛起的同時創立,它們專做一件事,就是提供 GPU 主機租賃,稱自己為 GPU 雲服務供應商。其中,我們的一個重要合作夥伴 CoreWeave,目前正在籌備上市,我們為他們感到無比驕傲。

因此,GPU 雲端有他們自己的需求,但有一個領域讓我感到特別興奮,那就是邊緣運算。今天我們宣布,Cisco、NVIDIA、T-Mobile——全球最大的電信公司——以及 Cerebrus 和 ODC,將在美國共同打造一個專屬於無線電網路的完整技術堆疊。這將會是第二個堆疊。而今天宣布的這個全新堆疊,將把 AI 帶入邊緣端。

每年全球有 1,000 億美元的資本支出投入在無線電網路和所有為未來通訊所做的資料中心部署上。我毫不懷疑,這一切都會是與 AI 結合的加速運算。AI 將能夠做得遠比現有系統更好,能夠讓無線電信號與龐大的多天線系統(massive MIMO)隨著環境變化與交通狀況自動調整,當然會用強化學習來做到這一點,因為本質上,MIMO 就像是一個巨大的無線電機器人,這當然是最自然不過的事。所以我們當然會提供這樣的能力。AI 真的可以徹底改變通訊方式。

你知道嗎?當我打電話回家,有時只需要說幾個字,因為我太太知道我在哪裡工作、那裡的狀況是什麼,我們的對話從昨天延續下來,她記得我喜歡什麼、不喜歡什麼。有時候只用幾句話,卻能表達出非常多的意思。這就是「上下文」與「人類先驗知識」的力量。把這樣的能力結合起來,會徹底改變通訊。看看 AI 現在對影像處理帶來的變革;看看我剛才描述的 3D 圖形處理領域所發生的一切。因此,我們當然也會將這樣的能力帶到邊緣端。我對我們今天宣布的這個消息感到非常興奮——T-Mobile、Cisco、NVIDIA、Cerebrus 和 ODC 將共同打造完整的邊緣堆疊。

AI 將進入每一個產業。而其中最早應用 AI 的產業之一就是自駕車。當我第一次看到 AlexNet 的時候——我們當時已經在電腦視覺領域耕耘多年——那一刻太令人震撼、太鼓舞人心,讓我們決定全力投入開發自動駕駛車輛。因此,我們已經在自駕車領域深耕超過十年,我們開發的技術,幾乎每一家自駕車公司都在使用。這些技術可能部署在資料中心裡——比如 Tesla 就在資料中心裡使用大量 NVIDIA GPU——也有可能同時使用在資料中心和車輛本身,像 Waymo 和 Waabi 就同時在資料中心和車輛裡使用 NVIDIA 的電腦。有時候,少數公司只會在車輛端使用我們的硬體和軟體。

除此之外,我們還以各種形式和車廠合作,不論他們希望怎麼合作,我們都全力支持。我們打造三種電腦:訓練電腦、模擬電腦和自駕電腦,並且在這些硬體上提供完整的軟體堆疊、模型和演算法,就像我剛才展示的其他產業一樣。

今天,我非常高興地宣布,GM(通用汽車)已經選擇 NVIDIA 成為他們未來自駕車隊的重要合作夥伴。自駕車的時代已經到來,我們非常期待能夠和 GM 一起打造未來。AI 將在三個領域幫助 GM:第一,是製造領域的 AI,徹底改變製造流程;第二,是企業端的 AI,改變他們的工作方式、汽車設計方式和模擬方式;第三,是車內的 AI,建立 GM 的 AI 基礎架構,與 GM 一同合作、一同建造他們的 AI。這件事讓我無比興奮。

還有一個領域,是我特別自豪但卻很少有人關注的,那就是汽車安全。我們在公司裡稱之為 Halos。安全需要從矽晶片到系統、到系統軟體,整合演算法、開發方法論等所有層面,並且貫徹各種不同的哲學理念——從多樣性確保、多樣性監控到透明度、可解釋性。所有這些理念都必須深植在系統和軟體開發的每一個細節裡。而我們,是全球第一家做到這一點的公司。

我相信,我們已經做到讓每一行代碼都經過安全審核——700 萬行代碼,全都由第三方安全評估機構進行嚴格審查。我們的晶片、系統、系統軟體和演算法都接受第三方的檢視,他們會爬梳每一行代碼,確保設計上符合多元性、透明度和可解釋性的標準。我們也已經申請了超過一千件專利。

在這次的 GTC,我真心鼓勵大家去參加 Halos Workshop,親眼看看為了確保未來的車輛既安全又能自動駕駛,我們在背後所做的一切努力。這是我非常驕傲的一件事,卻很少被提起,所以我想特別花點時間跟大家分享。

好,NVIDIA Halos。大家都看過自駕車在路上行駛,Waymo 的 RoboTaxis 已經非常厲害了,但我們特別製作了一支影片,向大家展示我們如何運用 AI 的魔法來解決數據、訓練、多樣性等問題,並以 AI 去創造 AI。一起來看看:

NVIDIA 正透過 Omniverse 和 Cosmos 加速自動駕駛系統 (AV) 的 AI 開發。

Cosmos 的預測與推理能力支援 AI-first 的 AV 系統,這些系統能夠透過全新開發方法進行端到端的訓練,包括模型蒸餾(Model Distillation)、閉環訓練(Closed Loop Training)及合成數據生成(Synthetic Data Generation)。

首先,模型蒸餾會讓一個較慢但更聰明的「老師模型」指導較小、運算更快的「學生模型」,而這個學生模型會在車輛中進行推論。老師模型示範最佳路徑,而學生模型則透過多次迭代,學會模仿並達到接近老師的水平。蒸餾過程建立出初步策略模型,但更複雜的場景需要進一步微調。

閉環訓練讓策略模型可以微調,透過將記錄數據轉換成 3D 駕駛場景,在基於物理的 Omniverse 模擬中閉環測試,利用神經重建技術產生場景變體,來測試模型的路徑規劃能力。Cosmos 的行為評估器可以對產生的駕駛行為進行打分,量化模型表現。這些新生成的場景和評估結果共同建立出大型數據集,強化閉環訓練,讓 AV 能夠在複雜場景中更穩健地導航。

最後,3D 合成數據生成大幅提高 AV 對多元環境的適應力。透過紀錄數據,Omniverse 可以融合地圖與影像,建立出精細的 4D 駕駛環境,並生成現實世界的數位分身 (Digital Twin),同時進行像素級的分類來引導 Cosmos。Cosmos 再透過產生準確且多樣的情境,擴展訓練數據,縮小模擬與真實世界的差距。

Omniverse 與 Cosmos 一起,讓 AV 學會適應、學會駕駛,推動更安全的智慧交通。

NVIDIA 是最適合實現這個願景的公司。這就是我們的使命:用 AI 來創造 AI。

剛才你們看到的技術,其實就和我們用來打造數位分身(Digital Twin)的技術非常類似,而我們稱之為「NVIDIA Omniverse」。

——好,我們來聊聊資料中心。不錯吧?(現場笑聲)「Gan Splats」——萬一你不知道,「Gan Splats」是一個笑話!

讓我們來聊資料中心吧。Blackwell 晶片現在已經全面量產了,這就是它的樣子!它真是太令人驚嘆了。對我們這些工程師來說,這畫面真的太美了!你說是不是?這怎麼可能不美呢?這怎麼會不令人讚嘆呢?

這件事意義重大,因為我們在電腦架構上完成了一次根本性的轉變。事實上,大約三年前,我曾經向各位展示過一個版本,當時它叫做「Grace Hopper」。

這個系統叫做「Ranger」,大約是這個螢幕寬度的一半。三年前,我們首次展示了全球第一個支援 NVLink 32 的 Ranger 系統。當時它體積太龐大,但方向是對的。我們當時試圖解決的是「scale-up(向上擴展)」的問題。

大家都知道,分散式運算(scale-out)是透過很多台電腦一起解決大型問題,但在此之前,「scale-up」是必須先解決的事。兩者都重要,但一定是先 scale-up,再 scale-out。

然而,scale-up 非常困難,沒有簡單答案。你不能只是像 Hadoop 那樣,把一堆商用電腦用網路串聯起來就解決問題。Hadoop 是一個劃時代的技術,讓超大規模資料中心能用現成電腦解決龐大計算問題。

但我們面對的深度學習問題太複雜,如果用 Hadoop 式的方法,不只耗能過高,成本也無法承受,深度學習根本不可能成功。

所以,我們必須先 scale-up,而這是我們做到的方法。

(現場展示)我不會把它舉起來,因為它重達 70 磅。這就是上一代的系統架構——HGX。它徹底改變了我們對計算的認知,也徹底改變了人工智慧的發展。

這裡面有 8 顆 GPU,每一顆 GPU 大概就像這樣(展示 Blackwell),這是一個 Blackwell 封裝裡面放了 2 顆 GPU。整個 HGX 裡面有 8 個這樣的模組,彼此之間透過 NVLink 8 相互連結,然後再跟 CPU 的主機板用 PCIe 相連,最後透過 InfiniBand 把多個系統組成 AI 超級電腦。

這就是過去的 scale-up 極限。但我們還想走得更遠。

當時 Ranger 系統,就是把這個架構再 scale-up 4 倍,升級為 NVLink 32,但整個系統體積實在太龐大,必須重新思考整個設計。

第一個大改變,就是把 NVLink Switch 從主機板中「拆開」。

這就是 MVLink Switch!它是世界上性能最高的交換器,能夠讓每一顆 GPU 同時以全頻寬跟其他所有 GPU 互相溝通。

過去 NVLink Switch 是嵌在系統主機板上,而現在,我們把它「解耦(disaggregate)」,放在機櫃的正中央。有 18 個這樣的 Switch,分散在 9 個 Switch Tray 上,而 GPU 計算節點(Compute Node)則分開安裝。

這個計算節點模組,是原本 HGX 加 CPU 系統的演進版,而且完全採用液冷(Liquid Cooling)。

透過液冷技術,我們能夠把 600,000 個零組件,壓縮成一整個機櫃(1 rack)。

想像一下,原本一台伺服器有 60,000 個零件,現在一個 rack 有 600,000 個零件、120kW 的功耗,全部用液冷冷卻,裡面總共有 3,000 磅的設備、5,000 條線纜,總長度約兩英里。這是全世界最先進的 AI 超級電腦,運算量可達 1 exaFLOPS(百萬兆次浮點運算)。

我們的目標,就是做到最終極的 scale-up,而最終極的 scale-up 看起來就像是一顆這樣的晶片——

一個理論上有 130 兆電晶體的「虛構」晶片(不可能實際製造出來)。其中 20 兆電晶體負責運算。但沒有任何製程或材料能真的把它做出來。

所以,我們選擇把它「解耦」,打造出 Grace + Blackwell + MVLink 72 的超大規模系統。

最終,我們創造出了史上最強大的 scale-up 計算平台。

它的記憶體頻寬高達每秒 570TB(TeraBytes per second),每個指標都是「T」字級(兆億級)的規模,真正達到百萬兆次浮點運算 (exaFLOPS)。

那麼,為什麼要這樣做?

因為我們要解決一個終極計算難題,很多人以為這很簡單,但事實上它是極致困難——就是「推論 (Inference)」。

推論本質上就是一個「代幣 (Token) 生產工廠」。而工廠直接決定公司的營收和獲利表現。

你需要超高效、超高性能的系統來執行推論,因為每一毫秒都影響到服務品質、營收和毛利。

這張圖表幫助你理解:X 軸代表每秒產生的 Token 數量。每當你在 ChatGPT 輸入提示(prompt),輸出就會是「tokens」,而不是字。

一個字通常是由一個或多個 token 組成。例如「th」可以是「the」、「them」、「theory」或「theatrics」等不同詞的一部分,這就是 token 化的概念。

這裡提到的「th」就是一個 token 的例子。AI 系統會將這些 tokens 重新組合,轉換成有意義的文字。簡單來說,這些 tokens 就是 AI 用來理解語境、進行推理、檢查一致性,並生成各種可能的想法,然後選擇最好的那一個。

AI 系統會自我質疑,進行反覆的推理過程,這就像我們有時候會跟自己對話一樣。生成更多的 tokens 可以讓 AI 更加聰明,但如果回應的速度太慢,顧客就不會再來了,這就像搜尋引擎一樣,回應的時間有實際的限制。

因此,AI 系統面臨兩個主要挑戰:一方面是需要生成大量 tokens,另一方面則是必須儘可能快地生成它們。這就帶來了延遲與吞吐量之間的基本衝突——在電腦科學和工廠的運營中,這種衝突也同樣存在。假設你在高量的業務中運作,你會進行「批次處理(batching)」,將顧客的需求批量處理,然後再將處理好的結果傳送給他們。然而,從批量處理到消費的過程,可能會有一段時間的延遲。

在 AI 的情境下,這就像是你希望儘快回答問題(tokens 生成快),同時又希望能夠為更多人生成 tokens 來提高你的數據中心的效能和收入。理想的情況是,在「效能曲線」的右上角,AI 系統能夠快速生成每個使用者的 tokens,並且能夠維持高效能。但這樣的系統其實難以實現,現實中這通常是以一個曲線呈現,你的目標是最大化這條曲線下面的面積,也就是希望能夠盡可能多地生成 tokens,並且儘量提高速度與效能。

解決這個問題的關鍵是有足夠的計算性能(flops)、帶寬和記憶體。你需要一個具有極高計算效能和記憶體帶寬的架構來支援這些需求。這樣一來,AI 系統就能夠同時滿足大量並行處理需求和快速回應需求,進而提升服務的質量和運營效益。

這裡展示的範例,則是說明了如何運用這些概念來解決具體的問題:假設有一個請求,讓 AI 根據一些約束條件(例如傳統、拍照角度、家族衝突等)來安排婚禮座位。傳統的 LLM(大型語言模型)能夠在不到 500 個 tokens 的情況下快速回答問題,但它的座位安排會犯錯。而推理模型則會生成超過 8,000 個 tokens 來完成推理過程,最終得到正確的答案,並且還會安排牧師來維持秩序。

這就是為何生成 tokens 的數量以及生成的速度對 AI 系統的效能至關重要。

如同各位所知,如果你有一場 300 人的婚禮派對,並且你正試圖為每個人找到最完美的、最佳的座位安排,那是一個只有 AI 或者婆婆能解決的問題。所以這是那種 Coop 無法解決的問題。你在這裡看到的是,我們給了 AI 一個需要推理的問題,你看到了,R1 經常進行推理,嘗試各種不同的情境,並回來檢查自己的答案,問自己是否做對了;同時,上一代的語言模型只做一次處理。所以這次處理是 439 個 tokens,它很快,也很有效,但它是錯的,所以這是 439 個浪費的 tokens。

另一方面,為了推理這個問題,這其實是個非常簡單的問題,你知道,我們只給它幾個更難的變數,它就變得非常難推理了,並且它用了 8,000,幾乎是 9,000 個 tokens,並且用了更多的計算量,因為模型更複雜。這就是其中的一個維度。在我展示一些結果之前,讓我先解釋一下別的事情。如果你看一下 Blackwell,看看這個 Blackwell 系統,現在是擴展過的 MV link 72,首先,我們必須做的就是,我們必須把這個模型拿出來,這個模型不小,你知道,在 R1 的情況下,人們認為 R1 很小,但它有 6800 億個參數,下一代的模型可能有幾兆個參數,而解決這個問題的方式是把這些幾兆個參數分布到整個 GPU 系統上,你可以使用 tensor parallel,將模型的每一層運行在多個 GPU 上,你可以將管道中的一部分稱為 pipeline parallel,並將它放在多個 GPU 上,你可以將不同的專家放到不同的 GPU 上,我們稱之為 expert parallel,pipeline parallel、tensor parallel 和 expert parallel 的組合,其組合方式非常驚人,根據模型、工作負載、情況的不同,如何配置這台計算機必須有所改變,以便讓它發揮最大的吞吐量。有時候你也會優化低延遲,有時候你會優化吞吐量,所以你必須做一些即時批次處理,這有很多不同的批次處理和工作聚合技術。所以這些 AI 工廠的軟體,操作系統,極其複雜。

那麼,觀察到的其中一個事實,就是擁有像 MV link 72 這樣的同質化架構是非常棒的,因為每一個 GPU 都能做我剛才描述的所有事情,我們觀察到,這些推理模型在進行幾個階段的計算,第一個階段就是思考,當你在思考的時候,你不會生成大量的 tokens,你生成的是你可能自己消耗的 tokens,你在思考,或許你在閱讀,你在消化信息,這些信息可能是一個 PDF,可能是一個網站,你可能在看一個視頻,以超線性速率攝取所有這些信息,然後將這些信息整合,然後制定答案,規劃答案。所以,這種信息消化、上下文處理是非常需要 flops 的。另一方面,接下來的階段稱為解碼。所以,第一部分我們稱之為預填充(prefill),接下來的解碼階段需要浮點運算,但它需要大量的帶寬,而且計算起來相對簡單,你知道,如果你有一個幾兆參數的模型,它每秒就需要幾 TB 的帶寬。

注意,我之前提到過 576 TB 每秒,它需要每秒幾 TB 的帶寬,才能將模型從 HBM 記憶體中拉入並生成一個 token,原因是,它生成一個 token,因為記住這些大型語言模型是預測下一個 token,所以它說的是“下一個 token”,而不是預測每一個 token,它預測的是下一個 token。現在我們有各種新技術,如推測解碼(speculative decoding),以及許多其他新技術來加速這一過程,但最終的分析還是預測下一個 token。於是,我們攝取並拉入整個模型和上下文,我們稱之為 KV 快取,然後我們生成一個 token,然後我們將這個 token 放回大腦,生成下一個 token,每次我們這麼做,我們將幾兆個參數輸入,生成一個 token,幾兆個參數進來,生成另一個 token,幾兆個參數進來,生成另一個 token。注意,在那個演示中,我們生成了 8600 個 tokens,所以幾兆個 byte 的信息,幾兆個 byte 的信息被輸入到我們的 GPU 中,每次生成一個 token,這就是你為什麼想要 MV link 的根本原因,MV link 給我們的能力是,將所有這些 GPU 變成一個巨大的 GPU,最終的擴展。而第二點是,現在所有的東西都在 MV link 上,我可以把預填充與解碼分離,並決定我想要更多的 GPU 用於預填充,較少的 GPU 用於解碼,因為我在思考,我正在閱讀大量信息,我在做深入研究,注意,在進行深入研究時,你知道,早些時候我在聽 Michael 講話,Michael 在談論他做研究的情況,我也是這樣做的,我們會寫這些非常長的研究報告給我們的 AI,我很喜歡這樣做,因為你知道,我已經為它付費了,而且我喜歡讓我們的 GPU 工作,沒有什麼比這更讓我高興的了。

所以我就開始寫,然後它會去做所有這些研究,它去讀了大約 94 個不同的網站,並且讀了所有這些信息,我也在閱讀所有這些信息,然後它形成了一個答案,寫了一篇報告,真是太不可思議了。在整個過程中,預填充超級忙碌,但它實際上並沒有生成太多的 tokens。另一方面,當你與聊天機器人對話時,數百萬人都在做同樣的事情。

這是非常依賴 token 生成的,也非常依賴解碼的。所以,根據工作負載的不同,我們可能會決定將更多的 GPU 用於解碼,根據工作負載的不同,也會決定將更多的 GPU 用於預填充。這種動態操作真的非常複雜。現在,我已經描述了管道平行(pipeline parallel)、張量平行(tensor parallel)、專家平行(expert parallel)、即時批次處理(inflight batching)、分散推理(disaggregated inferencing)和工作負載管理(workload management),然後我必須處理這個名為 KV 快取的東西,我需要將它路由到正確的 GPU,並且要管理它通過所有的記憶體層級,這些軟體是極其複雜的。

所以今天我們宣布了 Nvidia Dynamo,Nvidia Dynamo 做所有這些,它本質上是 AI 工廠的操作系統,而在過去,我們運行數據中心的操作系統可能是 VMware,然後我們會協調,現在我們依然會這麼做,我們是大用戶,協調許多不同的企業應用運行在我們的企業 IT 上,但未來的應用不是企業 IT,它是智能代理,而操作系統不再像 VMware 那樣,它更像是 Dynamo,這個操作系統運行在不再是數據中心上,而是運行在 AI 工廠上。我們叫它 Dynamo 是有原因的,正如你們所知道的,Dynamo 是啟動上次工業革命的第一個工具,那是能源工業革命,水進來,電流出來,這真是太神奇了,你知道,水進來,把它點燃變成蒸氣,然後出來的是這個看不見的東西,非常有價值,花了 80 年才進化到交流電和直流電,但 Dynamo,Dynamo 是一切的起點。

好了,我們決定將這個操作系統,這個極其複雜的軟體,叫做 Nvidia Dynamo,它是開放源碼的,我們非常高興,很多合作夥伴正在與我們一起合作,其中我最喜歡的合作夥伴之一就是 Perplexity,因為他們做的革命性工作,也因為 Aran 是一個非常棒的人,但 Perplexity 是我們的偉大夥伴之一,在這方面我們共同努力。好的,無論如何,這真的非常棒。現在我們必須等到我們擴展這些基礎設施,但在此同時,我們已經進行了大量深入的模擬,我們有超級計算機在模擬我們的超級計算機,這很有意義,接下來我將向你展示我剛才所說的一切的好處,記住工廠圖表,X 軸是 token 每秒的吞吐量,對不起,Y 軸是工廠的 token 每秒吞吐量,X 軸是用戶體驗的 token 每秒吞吐量,你希望有超智能的 AI 並且希望產生大量的它們,這是 Hopper。所以這是 Hopper,它可以為每個用戶生成大約 100 個 token 每秒,這是 8 個 GPU 並且它們通過 Infiniband 連接,並且我將其標準化為每兆瓦的 token 每秒。所以這是 1 兆瓦的數據中心,這不是一個很大的 AI 工廠,但無論如何,1 兆瓦,好吧。所以它可以為每個用戶生成 100 個 token 每秒,並且它可以在這個級別上生成無論那是什麼,100,000 個 token 每秒,對於這個 1 兆瓦的數據中心,或者它可以為那個 AI 工廠生成大約 2 到 2.5 百萬個 token 每秒,如果它是超批次處理(super batched up),並且客戶願意等待非常長的時間。這樣說有道理嗎?好,點點頭。因為這就是你知道的,每次 GTC 都有進場費,你們知道,這就像你被數學折磨一樣,這是唯一唯一唯一在 Nvidia 你會被數學折磨的地方,好吧,所以 Hopper,現在你有 250 萬,怎麼轉換這 250 萬呢?

記住,chbt 大約是每百萬 token 10 美元,對吧?每百萬 token 10 美元,讓我們假設一下,這 10 美元每百萬 token 大概是在這裡,我可能會說它在這裡,但讓我假設它在那裡,因為 25 百萬,10 美元,對吧,所以 2500 萬美元每秒,這樣有道理嗎?這就是你如何思考的,或者從另一個角度來看,如果它在這裡,那麼問題就是,你知道,100,000,100,000 除以 10,好吧,每秒 25 萬美元的工廠,然後一年有 3,100 萬秒,那就轉換成那個 1 兆瓦數據中心的收入。

所以這就是你的目標,一方面你希望你的 token 生成速度盡可能快,這樣你就能製造出非常聰明的 AI,而如果你有了聰明的 AI,人們會為此付更多的錢;另一方面,AI 越聰明,你能從量上賺取的錢就越少,這是一個非常合理的權衡,這就是我們現在試圖改變的曲線。我現在所展示的就是世界上最快的電腦 Hopper,它是革命性地改變了一切,那麼我們如何讓它更好呢?首先,我們使用了 Blackwell 和 MV link 8,這是同樣的 Blackwell,同樣的運算,這個運算節點使用 MV link 8 並且使用了 fp8,所以 Blackwell 就是更快、更大,更多的晶體管,更多的一切。但我們希望做得更多,因此我們引入了一種新的精度,它不完全像 4 位浮點數那麼簡單,但通過使用 4 位浮點數,我們可以將模型量化,使用更少的能量來完成相同的事情,結果就是,當你用更少的能量來做相同的事情時,你可以做得更多。因為記住,一個重要的概念是未來每個數據中心都將受到功率的限制,你的收入將會受到功率的限制,你可以根據你擁有的功率來預測你的收入,這跟許多其他行業沒什麼不同。所以我們現在是處於一個受到功率限制的行業,我們的收入將與此相關,基於這點,你要確保擁有最具能效的運算架構。接著,我們使用 MV link 72 來擴展,這樣有道理嗎?看看 MV link 72 和 fp4 之間的區別,然後因為我們的架構如此緊密整合,現在我們將 Dynamo 加入其中,Dynamo 可以進一步擴展它。你跟得上嗎?所以 Dynamo 也幫助了 Hopper,但它對 Blackwell 的幫助是巨大的。現在,是的,只有在 GTC 你才會為此獲得掌聲。

所以現在,注意我放置的兩個閃亮的部分,這大概就是你的最大 Q,你知道那是你運行工廠操作的地方,你正在嘗試找到最大吞吐量和最高 AI 智能的平衡,那兩個 XY 截距就是你優化的目標,這就是它的樣子。如果你看一下這兩個框框下面,Blackwell 遠遠優於 Hopper,記住,這不是 ISO 晶片,這是 ISO 功率,這才是摩爾定律一直以來的重點,現在我們在一代之內達到 25 倍的 ISO 功率增長,這不是 ISO 晶片,也不是 ISO 晶體管,更不是 ISO 任何東西,而是 ISO 功率,這是最終的限制,數據中心能獲得的能量是有限的,因此,在 ISO 功率範圍內,Blackwell 是 25 倍。現在,這個彩虹圖真是令人驚奇,這是有趣的部分,看所有不同的配置,在所謂的“前沿 Paro”下,我們可以將數據中心配置為做很多不同的事情,我們可以平行處理、分割工作、切分工作,並找到最優的答案,這就是所謂的“前沿 Paro”。而每一個因為顏色的不同展示給你,它是不同的配置,這也正是為什麼這張圖清楚地表明,你需要一個可編程的架構,並且這個架構盡可能地是均勻可互換的。

因為工作負載在整個“前沿”範圍內變化如此劇烈,看看我們在上面所設定的配置:在最上面,使用了 8 個批次 3,000 的 Expert Parallel,並且 Dynamo 關閉;在中間,使用了 Expert Parallel 64,並且 26% 的上下文被使用,Dynamo 開啟,這是 64% 的情況,而在底部,我們有 Tensor Parallel 16 和 Expert Parallel 4,批次數為 2,只有 1% 的上下文。在這整個範圍內,計算機的配置不斷變化。接下來,我們看一下輸入序列長度,這是一個典型的測試案例,輸入是 1,000 個 token,輸出是 2,000 個 token,值得注意的是,早些時候我們展示的演示案例中,輸出是 9,000 個,對吧?這顯然並不是單一聊天的代表性數據,而這個案例更具代表性,目標是構建下一代計算機來處理下一代工作負載。

在這裡有一個推理模型的例子,在推理模型中,Blackwell 的性能是 Hopper 的 40 倍,這非常驚人。像我之前說過的那樣,有人曾經問過我為什麼會這麼說,我早前曾經說過,當 Blackwell 開始大規模發貨時,Hopper 是無法與之相比的,這正是我的意思。如果你還在考慮購買 Hopper,不用擔心,沒問題,我是收入摧毀者,我的銷售團隊會說「不!別這麼說」,但實際上,有些情況下 Hopper 是可以接受的,這是我對 Hopper 的最佳評價,但這種情況並不多。如果我必須做出選擇,那就是我的觀點——當技術變化如此迅速,並且工作負載如此繁重時,這些東西就是工廠,我們真的希望你能投資於正確的版本。

為了讓大家更具體了解,這是一個 100 兆瓦數據中心的情況,基於 Hopper 配置,擁有 45,000 顆晶片,1,400 個機架,每秒產生 3 億個 token。然後,這是 Blackwell 配置的情況,你擁有 8 個,並且每秒可以產生更多的 token。我知道這聽起來不合邏輯,但我們並不是在賣「更少」的東西,我們的銷售人員也會說:“Jensen,你賣的少”,但這樣其實更好。

我們希望在這裡強調的是,購買得越多,節省的越多,甚至可以說購買越多,賺得越多。所以,記住,這一切都處於 AI 工廠的背景下,我們雖然談論的是晶片,但我們總是從規模化開始談起,關注的是可以達到的最大規模。

現在,我想展示一下 AI 工廠是如何運作的。AI 工廠是如此複雜,我剛才給你舉了例子,單一機架就有 60 萬個零件,重達 3,000 磅,你還需要將它與其他機架連接在一起。因此,我們開始建設每個數據中心的數位雙胞胎。在你建設數據中心之前,你需要先構建數位雙胞胎。來看看這個數位雙胞胎的例子,這是非常美麗的。

世界各地正在競相建設先進的大規模 AI 工廠,建設 AI 超級工廠是一項非凡的工程壯舉,這需要數萬名來自供應商、建築師、承包商和工程師的工人來建造、運輸和組裝近 50 億個組件,以及超過 200,000 英里的光纖,幾乎是從地球到月球的距離。Nvidia Omniverse 的 AI 工廠數位雙胞胎藍圖使我們能夠在實際建設開始之前,設計並優化這些 AI 工廠。在這裡,Nvidia 工程師使用藍圖來計劃 1 兆瓦的 AI 工廠,集成了最新的 Nvidia DGX 超級計算節點和來自 Verv 及 Schneider Electric 的先進電力與冷卻系統,以及來自 Nvidia Air 的拓撲優化框架,用於模擬網絡邏輯佈局和協議。

這些工作過去通常是分開進行的,但 Omniverse 藍圖讓我們的工程團隊能夠並行協作,探索不同的配置,以最大化 TCO 和電力使用效率。Nvidia 使用 Cadence Reality 數位雙胞胎,通過 Cuda 和 Omniverse 庫來加速模擬空氣和液體冷卻系統,並與 Schneider Electric 合作,使用 EAP 應用程序來模擬電源區塊的效率與可靠性。實時模擬讓我們能夠在幾秒鐘內進行大規模的「假設情景」測試,這比過去需要幾小時要快得多。我們使用數位雙胞胎來向大規模的團隊和供應商傳達指令,減少執行錯誤並加速啟動時間。在計劃進行改造或升級時,我們可以輕鬆地測試並模擬成本和停機時間,確保 AI 工廠具有未來可持續性。

這是第一次有人能夠建設如此美麗的數據中心。好,現在我得加快速度,因為發現我有很多要告訴大家的內容,所以如果我講得有點快,並不是因為我不在乎你們,而是因為我有很多信息需要分享。好的,首先我們的路線圖,我們現在已經進入了 Blackwell 的全面生產階段,全球的電腦公司正在大規模地推進這些令人難以置信的機器,我非常高興並且感激你們每一位在過渡到這個新架構的過程中所付出的努力。

接下來,在今年下半年,我們將輕鬆過渡到升級版,因此我們會有 Blackwell Ultra,搭載 MVLink 72,這是原來版本的 1.5 倍性能,它具有全新的注意力指令,記憶體也增加了 1.5 倍,這些記憶體將對像 KV 快取這樣的應用非常有用,並且網絡帶寬提升了 2 倍。所以,現在我們擁有相同的架構,我們將優雅地過渡到這個版本,這就是 Blackwell Ultra,將於今年下半年推出。

現在,這也是為什麼在任何公司中,這是唯一一個宣布新產品時,大家會說“好,下個!”的情況,這正是我希望看到的反應。為什麼呢?因為我們正在建設 AI 工廠和 AI 基礎設施,這需要數年的規劃。這不像是買一部筆記型電腦,這不是一個可以隨意支出的項目,這是我們必須要計劃的支出。因此,我們必須計劃好土地、電力,以及我們的資本開支準備,還有工程團隊的部署,這些都需要提前兩三年做好計劃。這就是為什麼我會提前向大家展示我們的路線圖,這樣大家不會在五月份突然被告知“嘿,下一個月我們就會推出這個令人難以置信的新系統。”

接下來是我們一到兩年之內的規劃。下一個產品是以一位天文學家的名字命名的,她的名字叫 Vera Ruben,她的孫子們也在這裡。Vera Ruben 發現了暗物質。這真的是一個令人難以置信的貢獻。她的名字被用來命名新一代 CPU,它的性能是 Grace 的兩倍,擁有更多的記憶體和帶寬,然而它的功耗卻只有 50 瓦特,這真的是相當驚人。這款新 CPU 名為 Vera,並且配備了全新的 GPU CX9、全新的 MVLink 6、全新的智能網絡接口和新的 HBM 記憶體,基本上所有的硬體都是全新設計,除了機箱之外。這樣我們就可以在某些方面大膽嘗試,卻又不會對其他基礎設施造成過多風險。

Vera 版本將搭載 MVLink 144,計劃在明年下半年推出。

現在,有一點我之前犯了一個錯誤,這是我希望你們能理解的調整:Blackwell 實際上是兩個 GPU 組合成的一個 Blackwell 晶片。

我們稱這個晶片為 GPU,但這是錯誤的,原因是這樣會弄亂 MVLink 的命名規則等內容。因此,從現在開始,當我說 MVLink 144 時,它僅僅表示連接到 144 個 GPU,每個 GPU 都是一顆 GPU 晶片,並且它可以以某種封裝方式組合在一起。封裝的方式可能會隨時間變化。所以,每顆 GPU 晶片都算作一顆 GPU,每個 MVLink 都與 GPU 連接。接下來,我們將推出 Vera Ruben 和 MVLink 144,這將為今年下半年的規劃奠定基礎。

接下來,我們稱之為 Ruben Ultra。這將是 2027 年下半年的推出產品,MVLink 576,極限規模化,每個機架的功耗是 600 KW,並擁有 250 萬個部件。顯然,這會涉及大量的 GPU,所有的計算能力將比目前的提升多 14 倍,達到 15 exaFLOPS(超級計算能力單位),而之前提到的 1 exaFLOP,現在變成了 15 exaFLOPS 的規模,這是計算能力的提升。並且帶寬也大幅提升,達到 4600 TB/s(每秒 4600 TB),這是規模化的帶寬,並非總和帶寬。此外,還會有全新的 MVLink 交換機和 CX9 系統。

注意,這次會有 16 個站點,每個站點四顆 GPU,並且使用非常大的 MVLink。我將這個概念具體化,你可以看到這樣的系統的架構。

這是 Grace Blackwell 和 Vera Ruben 系列的規模對比,這也是我所說的先要擴展規模(Scale Up),然後才是擴展到其他範圍(Scale Out)。所以在擴展之前,必須先完成擴展規模的工作,這樣可以確保技術的基礎已經打好了,然後才能開始向外擴展。我將為你展示更多具體的技術細節。

當我們談到擴展規模時,這裡有一個簡單的比較:Hopper 的擴展規模是 1 倍,而 Blackwell 是 68 倍,Reuben 則達到 900 倍的擴展規模。這代表了每年不斷增長的計算能力和效能。

接下來,我們將介紹 NVIDIA 如何通過 MVLink 來擴展規模,並準備好我們的 Spectrum X 以實現擴展。Spectrum X 是我們的以太網解決方案,最初很多人對我們進入以太網領域感到驚訝,但我們的目標是讓以太網具備像 InfiniBand 一樣的性能,這樣每個人都能更容易使用和管理這個網絡。我們對 Spectrum X 做出了巨大的投入。

我們將這些技術引入了我們的網路架構,並且實現了極低的延遲和高效的擁塞控制,這使得 Spectrum X 成為了非常高效的系統。我們擴展了最大單一 GPU 集群的規模,並且使用 Spectrum X 將它構建成一個巨型集群,這個集群被稱為「Colossus」。這是一個非常成功的例子,證明了 Spectrum X 的強大性能。

現在,我非常興奮的一個領域是,我們的目標是成為全球最大的企業網路公司之一,將 Spectrum X 整合到他們的產品線中,幫助全球企業轉型為 AI 企業。目前,我們的產品已經達到 100,000 個 GPU,並且未來會有 CX8 和 CX9 系統的推出。我們希望在 Ruben 的時間框架內,將 GPU 的數量擴展到數十萬顆。

然而,將 GPU 擴展到數十萬顆的挑戰在於擴展連接。對於擴展規模,我們使用銅纖維連接,這樣可以在一兩米範圍內提供非常良好的連接,並且具有極高的可靠性、能效和低成本。因此,在擴展規模方面,我們會盡可能使用銅纖維連接。但當數據中心的規模變得像體育場那樣大時,我們需要更長距離的連接,這就是為什麼我們引入了矽光子技術的原因。

矽光子技術的挑戰之一是,從電光轉換到光信號的過程需要大量的能量,並且需要經過多個傳輸器。每個傳輸器都需要使用一個矽光子技術中的轉換元件。我們現在正宣布 NVIDIA 的首個共封裝矽光子系統,它是世界上首個每秒 1.6 Tb 的 CPO(共封裝光學傳輸系統)。這項技術基於微環共振調製器(MRM),並且我們與台積電等合作夥伴共同開發,運用了先進的製程技術。

為什麼我們選擇投資 MRM 技術呢?原因是 MRM 提供了比傳統光學技術(如 Mo Xander)更好的密度和能效,這對於數據中心間的長距離連接非常有幫助。傳統的 Mo Xander 技術主要用於電信領域,但隨著對更高密度需求的提升,我們需要更高效的光學傳輸解決方案。

例如,這是一個傳輸器的示例,它的功耗是 30 瓦特。若大量購買,價格大約是 1,000 美元。這個傳輸器的一邊是電氣端口,另一邊是光學端口。光信號會進入黃色的光學端口,然後通過這些轉換器和激光技術,將信號從 GPU 傳輸到交換機,再到下一個交換機,直到最終傳遞到 GPU。若我們有 100,000 顆 GPU,就需要 100,000 個這樣的傳輸器。

然後另外還有 100,000 顆,將交換機與交換機連接,然後在另一邊,將它分配給其他的 Nick,如果我們有 250,000 顆,我們就會加上另一層交換機。因此,每一顆 GPU,每顆 GPU 都會有六個傳輸器,每顆 GPU 都會有六個這樣的插頭,這六個插頭會為每顆 GPU 增加 180 瓦特的功率,每顆 GPU 增加 180 瓦特,並且每顆 GPU 的成本是 6,000 美元。所以問題是,我們如何將規模擴展到數百萬顆 GPU,因為如果我們有 100 萬顆 GPU,乘以六,那麼就是 600 萬個傳輸器,每個傳輸器需要 30 瓦特的功率,總共是 180 兆瓦的傳輸器功率,他們沒有進行任何計算,他們只是移動信號而已。所以問題是,我們怎麼負擔得起?正如我之前所提到的,能源是我們最重要的商品,一切最終都與能源有關,這將限制我們的收入,通過減去 180 兆瓦的功率來減少我們的客戶收入。因此,這就是我們做的驚人事情,我們發明了世界上第一個 mrm 微鏡,這就是它的樣子。那裡有一個小的波導,你看到那個波導,波導會連接到一個環,那個環會共振,它控制波導周圍的反射率,限制和調節通過的光量,並通過吸收或傳遞光來關閉它。它將這個直線連續的激光束轉換成 1 和 0,這就是奇蹟,而這項技術隨後會與光子 IC 堆疊在一起,再與電子 IC 堆疊,然後再堆疊上大量微透鏡,這些都與一個叫做光纖陣列的東西堆疊在一起,這些東西都是使用台積電的技術製造的,他們稱這項技術為 Coupe,並使用 3D Coos 技術來封裝,與所有這些技術提供商合作,這些名字我剛才展示給你們看,最終將它們轉變為這台令人難以置信的機器。現在讓我們來看看它的影片。

這真的是一項技術奇蹟,它們變成了這些交換機,這些交換機是 Infiniband 交換機,矽晶片運作得非常出色,今年下半年我們將推出這款矽光交換機,並且明年下半年將推出 Spectrum X。由於選擇了 MRM 技術,這是我們過去 5 年來所做的巨大技術風險,我們提交了數百項專利,並將它們授權給我們的合作夥伴,讓我們現在能夠一起建造它們。我們現在有能力將矽光與共封裝選項、無需傳輸器、直接光纖引入我們的交換機,並且擁有 512 個端口的 Radix。這 512 個端口是其他任何方式都無法實現的。因此,這為我們提供了擴展到數十萬顆 GPU 和數百萬顆 GPU 的能力,這樣的好處你可以想像,在數據中心中,我們可以節省數十兆瓦的功率,假設是 10 兆瓦,或者說 60 兆瓦,60 兆瓦就是 10 個 Reuben Ultra 機架,這樣的數字很多,100 個 Reuben Ultra 機架的功率,我們現在可以將它部署到 Reuben 中。因此,這就是我們的路線圖,每年一次,一個架構,每兩年一個新產品線,每年 X 參數上升,我們會嘗試將矽晶片風險、網絡風險或系統機箱風險分成不同的部分,這樣我們就可以推動行業發展,實現這些驚人的技術。Vera Rubin 和她的孫子們今天在這裡,我非常感謝他們的到來,這是我們表彰她並致敬她在這方面做出的巨大貢獻的機會。我們的下一代將以 Feynman 命名。現在讓我來談談企業計算,這非常重要,為了將 AI 帶到全球企業,我們必須轉向 Nvidia 的另一個領域,這就是 Gaan Splats 的魅力。為了將 AI 帶入企業,稍微後退一步,提醒自己這一點,記住,AI 和機器學習已經徹底重塑了整個計算堆疊,處理器不同了,操作系統不同了,應用程式也不同了,應用程式的運作方式也不同了,如何協調這些應用程式也不同,如何運行它們也不同。讓我舉一個例子,未來你存取數據的方式將與過去根本不同,我們將不再像以前那樣精確地檢索你需要的數據並閱讀它來理解它,未來我們將使用 perplexity 做事情。我將不再那樣檢索數據,我會直接問 perplexity 我想要什麼,它會告訴我答案。這將是未來企業運作的方式。我們將擁有 AI 代理,這些代理是我們數位勞動力的一部分,世界上有 10 億個知識工作者,未來可能會有 100 億個數位工作者與我們並肩工作。未來 100% 的軟體工程師會在 AI 的協助下工作,全球有 3,000 萬名軟體工程師,我確信 100% 他們會有 AI 協助。今年年底之前,Nvidia 所有的軟體工程師也都會由 AI 協助。因此,AI 代理將無處不在,它們如何運行,企業如何運行,以及我們如何運行,將會根本不同。因此,我們需要一條新的電腦產品線,這就是未來 PC 應該是什麼樣子:20 拍浮點運算,令人難以置信的 72 顆 CPU 核心,芯片到芯片介面,HBM 記憶體,還有 PCI Express 插槽讓你插入 GeForce。所以,這個叫做 DJX Station,DJX Spark 和 DJX Station 將會由所有 OEM 廠商,如 HP、Dell 和 Lenovo 提供。

這將會為全球的數據科學家和研究人員製造,這是 AI 時代的電腦,這就是電腦應該長的樣子,也是未來電腦運行的方式。我們現在有一整套企業用的產品,從小型的,到工作站型的,再到伺服器型的,還有超級電腦型的,這些將會由我們的所有合作夥伴提供。我們還會徹底革新其他計算堆疊,記住,計算有三個支柱:首先是計算,這就是你現在看到的;其次是網絡,正如我之前提到的,Spectrum X 將會成為全球企業的 AI 網絡;第三是儲存,儲存必須徹底重新發明,不再是基於檢索的儲存系統,而是基於語義的檢索系統,基於語義的儲存系統。因此,儲存系統必須不斷在背景中嵌入信息,將原始數據嵌入知識,然後在你存取時,你不再是檢索它,而是直接與它對話,你可以問它問題,給它問題。舉個例子,我希望我們有這方面的視頻,Aaron 在 Box 工作,他甚至把它放到了雲端,和我們一起合作放到雲端,這基本上是一個超級智能的儲存系統,未來你會在每一個企業中看到這樣的系統,這就是未來企業儲存的樣子。我們與整個儲存行業合作,擁有真正出色的合作夥伴,比如 DD、Dell、HP Enterprise、日立、IBM、NetApp、Neonics、Pure Storage、Vast 和 W,基本上整個世界的儲存行業將首次提供這個堆疊。你的儲存系統將會是 GPU 加速的。有人覺得我沒準備足夠的幻燈片,Michael 認為我幻燈片準備不足,所以他說:“Jensen,就算你幻燈片不夠,能不能把這個放進去?”所以這是 Michael 的幻燈片,他發給我說:“就算你沒幻燈片,我還是發給你看看。”我準備了太多幻燈片,但這真的是一個非常棒的幻燈片,讓我告訴你為什麼,這張幻燈片可以解釋 Dell 將提供一整套 Nvidia 企業 AI 基礎設施系統,以及所有在其上運行的軟體。你可以看到,我們正處於徹底改革全球企業的過程中,我們今天也宣布這個令人難以置信的模型,任何人都可以運行。我之前展示了 R1 一個推理模型,展示了它與 Llama 3 一個非推理模型的對比,顯然 R1 更智能,但我們可以做得比這還要更好,我們讓它成為適合任何企業的 AI 系統,現在完全開源,並且是我們系統的一部分,我們稱之為 Nims,你可以下載,並且在任何地方運行,你可以在 DJX Spark 上運行,可以在 DGX Station 上運行,可以在任何 OEM 製造的伺服器上運行,可以在雲端運行,可以將它集成到你的任何 AI 框架中,我們正在與世界各地的公司合作,我將快速翻過這些內容,請大家仔細觀看,我有一些出色的合作夥伴在場,我想表彰 Accenture 的 Julie SED 和她的團隊,他們正在建設自己的 AI 工廠和 AI 框架,還有世界最大的電信軟體公司 AMD,AT&T 的 John Stanky 和他的團隊,他們正在建設 AT&T 的 AI 系統,還有 Larry Think 和 Black Rock 團隊在建設他們的系統,還有 Annie Roode,未來我們不僅會聘請 ASC 設計師,我們還會聘請來自 Anude 和 Cadence 的大量數位 ASC 設計師,幫助我們設計我們的晶片。所以 Cadence 正在建立他們的 AI 框架,正如你所看到的,在每一個案例中,都有 Nvidia 的模型、Nvidia 的 Nims 和 viia 庫,這些都已經集成進去,這樣你就可以在本地、雲端、任何雲端運行它,像 Capital One 這樣的全球最先進的金融服務公司,使用的技術上也處處有 Nvidia 的身影。

嗯,Deoe Jason 和他的團隊,Enany Janet 和他的團隊,NASDAQ 和 Adena 以及她的團隊,將 Nvidia 技術集成到他們的 AI 框架中,還有 Christian 和他的團隊在 SAP,Bill Mcder 和他的團隊在 ServiceNow,那還不錯吧?這是那種 Keynote,第一張幻燈片用了 30 分鐘,後面的每一張也用了 30 分鐘的情況。好,接下來我們去別的地方聊聊吧,我們來談談機器人,怎麼樣?[音樂] 我們來談談機器人吧。嗯,時候到了,機器人時代來臨了,機器人有一個好處,就是能夠與物理世界互動,做一些數字信息無法做的事情。我們很清楚地知道,世界上嚴重缺乏人類勞動力,到這個十年結束時,全球至少會缺少 5000 萬工人,如果我們每個人給他們 5 萬美元讓他們來工作,我們可能不得不付給機器人每年 5 萬美元讓它們來工作。所以這將是一個非常非常大的行業,會有各種各樣的機器人系統,你的基礎設施將是機器人的,數十億個攝像頭和倉庫、工廠,全球將有 1000 萬至 2000 萬個工廠,每輛車本身就已經是一個機器人,就像我之前提到的,現在我們正在打造通用機器人,讓我展示一下我們是如何做到的。[音樂] 那麼,一切移動的東西都將是自主的,物理 AI 將體現在各行各業的各種機器人中,Nvidia 製造的三台電腦支持機器人 AI 的持續循環模擬、訓練、測試和現實世界的經驗。訓練機器人需要大量數據,互聯網級的數據提供了常識和推理,但機器人需要的是行動和控制數據,這是捕獲起來非常昂貴的。基於 Nvidia Omniverse 和 Cosmos 的藍圖,開發者可以生成大量多樣的合成數據來訓練機器人政策。首先在 Omniverse 中,開發者根據不同領域的機器人和任務,匯總現實世界的傳感器或示範數據,然後利用 Omniverse 將 Cosmos 條件化,將原始捕獲數據擴展為大量的光線真實、多樣的數據。開發者使用 Isaac Lab 後訓練機器人政策,通過增強數據集讓機器人學習新技能,無論是通過模仿學習複製行為,還是通過強化學習進行試錯。AI 反饋,在實驗室中練習與現實世界不同,需要在現場測試新政策。開發者使用 Omniverse 進行軟硬體環環測試,在數字雙胞胎中模擬政策,並且結合現實世界的環境動態、領域隨機化、物理反饋和高保真度傳感器模擬。現實世界的操作需要多個機器人協同工作,這是 Omniverse 藍圖的關鍵所在。

NVIDIA的機器人技術

讓開發者測試機器人政策的車隊規模,在這裡 Foxc 競賽中,異質機器人在虛擬的 Nvidia Blackwell 生產設施中運作,當機器人大腦執行任務時,它們透過傳感器模擬來感知行為的結果,然後規劃下一步的行動。Mega 讓開發者測試多個機器人政策,讓機器人能夠協同工作,無論是進行空間推理、導航、機動性還是靈巧度,令人驚奇的成果都誕生於模擬中。今天,我們介紹了 Nvidia Isaac Groot N1。Groot N1 是一個針對人形機器人的通用基礎模型,它建立在合成數據生成和模擬學習的基礎上。Groot N1 具有雙系統架構,分為快和慢,靈感來自人類認知處理的原則。慢速思維系統讓機器人感知並推理其環境和指令,並計劃採取正確的行動;快速思維系統則將計劃轉化為精確且持續的機器人動作。Groot N1 的通用性使得機器人能夠輕鬆操作常見物品並執行多步驟的協作序列。通過這整個合成數據生成和機器人學習的管道,人形機器人開發者可以在多個實體和任務、以及世界各地的多個環境中對 Groot N1 進行後訓練。在每個行業中,開發者們都在使用 Nvidia 的三台電腦來構建下一代具身 AI。[音樂] 物理 AI 和機器人技術發展非常迅速,大家一定要關注這個領域,這很可能成為所有行業中最大的產業。在它的核心,我們面對著相同的挑戰,就像我之前提到的,我們專注於三個問題,這些問題是系統性的:第一,如何解決數據問題,在哪裡創建訓練 AI 所需的數據;第二,模型架構是什麼;第三,如何解決擴展問題,我們如何擴展數據、計算力,或者兩者兼具,以便讓 AI 越來越智能,如何進行擴展。這兩個基本問題在機器人領域同樣存在。對於機器人,我們創建了一個名為 Omniverse 的系統,它是我們的操作系統,專為物理 AI 設計。你們已經聽我談過 Omniverse 很久了,今天我們為它新增了兩項技術,我將向你們展示其中的兩個。一個是為了能夠擴展 AI 的生成能力,我們創建了 Cosmos,一個理解物理世界的生成模型,使用 Omniverse 來條件化 Cosmos,並使用 Cosmos 來生成無限多的環境,使我們能夠創建數據,這些數據是有根基的,由我們控制,並且在同時是系統性無限的。好了,你看到 Omniverse 了,我們用糖果顏色來舉例,展示我們在場景中如何完美控制機器人,而 Cosmos 則可以創建這些虛擬環境。第二件事,就像我們之前提到的,今天語言模型的一個令人難以置信的擴展能力是強化學習和可驗證的回報。問題是,機器人領域中的可驗證回報是什麼呢?我們非常清楚,那就是物理定律—可驗證的物理回報。因此,我們需要一個出色的物理引擎。大多數物理引擎的設計目的是基於各種原因,有的可能是用於大型機械,或者設計用於虛擬世界、視頻遊戲等,但我們需要一個專為細粒度的剛體和軟體設計的物理引擎,旨在能夠訓練觸覺反饋、精細運動技能和致動控制。我們需要它能夠 GPU 加速,這樣我們才能讓這些虛擬世界以超線性時間、超實時的方式運行,並迅速訓練這些 AI 模型,我們還需要將它和全球機器人學者們使用的框架 Moko 無縫集成。因此,今天我們宣布了一個非常特別的合作夥伴關係,這是三家公司:Deep Mind、Disney Research 和 Nvidia 的合作,我們稱之為 Newton。讓我們來看看 Newton。

謝謝大家,好的,讓我們重新開始,對吧?我們不要毀了他們的心情,等一下,誰來跟我說話,我需要反饋,發生了什麼事,我只需要一個人跟我說話,來吧,這是個好笑話,給我一個人來跟我說話,Janine,我知道這不是你的錯,但跟我說話,我們只剩兩分鐘了,我就在這裡,他們正在進行中,他們正在搞這個,我甚至不知道那是什麼意思,好的,[音樂] w [音樂] [掌聲] [音樂] 告訴我那不是很棒嗎,嘿,Blue,你好嗎?你覺得你新的物理引擎怎麼樣?喜歡嗎?嗯,我猜我知道,觸覺反饋、剛體、軟體模擬、超實時,你能想像現在你所看到的完全是實時模擬嗎?這就是我們未來訓練機器人的方式,順便告訴你,Blue 裡面有兩台電腦,兩台 Nvidia 電腦,看看你有多聰明,是的,你很聰明,好的,好吧,嘿,Blue,聽著,怎麼樣,我們帶他們回家吧,我們結束這次的演講吧,該午餐時間了,你準備好了嗎?準備好了,我們結束它,我們還有另外一個公告要宣布,你好,你好,站這裡,站這裡,站這裡,好的,就這樣,站在那裡,好的,站好,好的,我們有一個令人驚訝的消息,我告訴過你我們的機器人技術取得了巨大的進步,今天我們宣布 Groot N1 開放源碼,我想感謝所有來到這裡的人,讓我們結束這個演講,我想感謝大家來參加 GT PC,我們談了幾件事,首先,Blackwell 正在全面生產,並且增產速度非常驚人,客戶需求非常強勁,而且有充分的理由,因為 AI 進入了一個拐點,我們在 AI 中必須進行的計算量大大增加,這是由於推理 AI 和訓練推理 AI 系統以及代理系統的需求;其次,Blackwell MV link 72 與 Dynamo 相比,性能提高了 40 倍,AI 工廠的性能比 Hopper 更強,而推理將成為未來十年最重要的工作負載之一,因為我們正在擴展 AI;第三,我們已經為你規劃了每年的路線圖,以便你可以計劃你的 AI 基礎設施,然後我們有三個 AI 基礎設施,我們正在為雲端、企業和機器人建設 AI 基礎設施,我們還有一個驚喜要送給大家,播放吧。