原文連結: Google AI 前沿對談:Demis Hassabis 與 Sergey Brin 爐邊談話及 Google AI Stack 介紹

大家好。今天這裡人山人海。我們將進行直播,所以請發出聲音,讓大家知道你們在這裡。[掌聲] 不錯。我是 Alex Kantrowitz。我是 Big Technology 播客的主持人。今天我將與兩位傑出嘉賓一起探討AI的前沿,他們是 DeepMind 的 CEO Demis Hassabis,來自 Google DeepMind。很高興見到你,Demis。還有特別來賓,Google 的共同創辦人 Sergey,Sergey 也在這裡。好的。這會很有趣。讓我們從前沿模型開始。Demis,這個問題是給你的。以我們目前對前沿模型的了解,還有多少改進空間可以釋放?以及為什麼你認為這麼多聰明人說遊戲即將趨於平穩?

前沿模型與改進空間

DEMIS HASSABIS: 我看到——我們看到令人難以置信的進步,以及我們在主題演講中展示的所有驚人成果。我認為我們正利用現有技術,將其推向極限,取得了巨大的進展。但我們也一直在發明新東西。我認為要一路達到 AGI 的程度,可能還需要一到兩個更多的突破,我們有很多有前景的想法正在醞釀,希望將它們帶入主分支,也就是 Gemini 分支。

ALEX KANTROWITZ: 有一個關於規模的問題。規模能解決所有問題嗎?或者不能?我想問你,就目前可用的改進而言,規模仍然是主角嗎?還是只是配角?

DEMIS HASSABIS: 我一直認為兩者都需要。將規模擴展到最大,並運用你知道的技術。你想將它們利用到極限,無論是數據還是計算規模,同時,你也要花很多精力研究接下來會出現什麼。可能是未來幾個月到一年的時間,這樣你就能有創新,可能會在某些方面實現 10 倍的飛躍,並與規模相結合。所以在我看來,兩者都需要。Sergey,你怎麼看?

SERGEY BRIN: 我同意。兩者都需要。你可以有演算法上的改進,也可以有計算上的改進。更好的晶片、更強大的電力、更大的資料中心。我認為從歷史上看,如果你觀察像多體問題(模擬引力體等)這樣的事情,當你繪製圖表時,演算法上的進步可能比計算上的進步更為顯著。但現在這兩者都在出現。所以我們正在獲得兩者的好處。

ALEX KANTROWITZ: Demis,你認為你大部分的改進是來自更大的資料中心和使用更多這樣的晶片嗎?談談世界將如何遍布資料中心,這是你的願景嗎?

資料中心與基礎設施

DEMIS HASSABIS: 我們會需要更多資料中心。這令人驚嘆——從科學的角度來看,我們把沙子變成機器,這仍然讓我感到驚奇。這令人難以置信。這不僅是為了訓練。但現在我們有每個人都想使用的模型,我們看到對 2.5 Pro 的需求令人難以置信。還有 Flash,我們對它在低成本情況下的性能感到興奮。我認為全世界都會想使用這些東西。因此,我們需要大量的資料中心用於服務。也用於推論時間計算。你今天看到了 Deep Think,你給它越多時間,它就會做得越好。對於某些任務,非常有價值且困難的任務,花很長時間讓它思考是值得的,我們正在思考如何進一步推進這一點,這將需要在運行時使用大量晶片。

ALEX KANTROWITZ: 好的,你提到了測試時間計算。我們進入推理範式已經大約一年了,你和我過去曾兩次談論過它,這是你可能可以添加到傳統 LLM 遊戲中的東西。你能幫我們具體說明一下這種改進嗎?

推理與測試時間計算

DEMIS HASSABIS: 我們一直是這種「思考」範式的堅定信徒。回溯到 AlphaGo 和 AlphaZero 在玩遊戲上的代理工作。它們都有這種在模型之上建立思考系統的屬性,事實上,你可以量化這一點。AlphaGo 和 AlphaZero 在關閉思考功能時,它只是一個模型告訴你第一個想法。這也不錯。也許是像大師級別的東西。但如果你開啟思考功能,它就遠遠超過冠軍級別。它的 ELO 分數像 600 分以上。所以你可以在遊戲中看到這一點,更不用說現實世界了,現實世界複雜得多。我認為通過在模型之上添加這種思考型的範式,收益可能會更大。當然,挑戰在於你的模型,我在演講早期談到過,需要一個好的世界模型,這比構建一個簡單遊戲的模型要困難得多。而且它有錯誤,這些錯誤可能在長期計劃中累積。但我認為我們在所有這些方面都取得了良好的進展。

SERGEY BRIN: 正如 Demis 所說的。DeepMind 確實開創了許多這種強化學習的工作。他們在 AlphaGo 和 AlphaZero 上所做的事情,正如提到的,如果你想達到他們在 Go 上通過大量訓練和推論時間計算所能做到的程度,你需要 5000 倍的訓練量。所以這顯然是一個巨大的優勢。顯然,就像我們大多數人一樣,我們在說話前思考會獲得一些好處。儘管——

ALEX KANTROWITZ: 並非總是如此。[笑聲]

SERGEY BRIN: 我總是被人提醒要這樣做。但我認為AI,顯然,一旦你添加了這種能力,它們會更強大,而且我們在這方面才剛剛開始。這些模型出來不到一年。特別是如果你考慮到AI,以及在使用大量工具或其他AI的過程中,通過思考過程來改進最終輸出。所以這將是一個非常強大的範式。

ALEX KANTROWITZ: Deep Think 很有趣。我試著描述它。我試著描述得準確。它基本上是一堆並行的推理過程在工作並互相檢查,然後就像是打了興奮劑的推理。現在,Demis,你提到這個行業還需要幾次進步才能達到 AGI。你會把這種機制放在哪裡?這是那些可能讓行業更接近 AGI 的機制之一嗎?

DEMIS HASSABIS: 我認為是。我認為它是其中一部分,可以這麼說。還有其他方面,我們需要說,也許這是改進推理的一部分,真正的發明來自哪裡?你並不是在解決一個數學猜想或提出一個或假定一個新的物理理論。我們還沒有能做到那種創造性的系統。我認為它們即將到來。而這種類型的範式可能在思考和許多其他方面有所幫助。我們需要世界模型準確性上的許多進步,我們正在構建這些模型。我想你在 Veo 中看到了潛力,Veo 3 讓我驚訝於它能夠直觀理解物理。我以前在職業生涯早期從事過遊戲開發,不僅是AI,還有圖形引擎,我記得必須手動完成所有這些工作,編寫所有光照、著色器以及所有這些東西的程式。我們在早期遊戲中做過非常複雜的事情。現在這些都在模型內部,只要輸入文字就行了。這相當令人驚訝。

ALEX KANTROWITZ: 我看到你分享了一張有油的煎鍋的圖片。那張圖片背景沒有任何潛在訊息嗎?

DEMIS HASSABIS: 並沒有。也許只是一個微妙的訊息。

ALEX KANTROWITZ: 好的。所以我們已經幾次說了 AGI 這個詞,AGI 這個縮寫。我認為目前在AI界有一個趨勢是說「我們不要再說 AGI 了」。這個詞被過度使用,變得毫無意義。但 Demis,我想你認為它很重要。為什麼?

AGI 的定義與實現

DEMIS HASSABIS: 我認為它非常重要,但也許我需要寫一些關於這個的內容,還有我們的首席科學家 Shane,他是 25 年前發明這個詞的人之一。我認為有兩件事有點混淆。一個是「一個典型的人,一個個體能做什麼?」我們已經能夠知道我們有多能幹,只有一部分事情是一個人擅長的。對吧?或者你可以說「你可以做什麼,像 90% 的人類都能做到的」。這顯然在經濟上非常重要,而且我認為從產品角度來看也非常重要。所以這是一個非常重要的事情。這是一個典型的人類智能。我稱之為 AGI 的東西更像是一個理論上的建構,也就是「人類大腦作為一個架構能夠做什麼?」。而人類大腦是一個重要的參考點,因為這是我們在宇宙中唯一證明通用智能是可能的證據。然後你需要展示你的系統能夠做一系列的事情,即使是歷史上最優秀的人類,也能夠用相同的大腦架構做到。這不是一個大腦,而是相同的大腦架構。所以像 Einstein、Mozart、Madam Curie 等等做到的事情。對我來說,很明顯目前的系統沒有達到這一點。關於 AGI 的炒作是什麼?它還不夠通用。它們相當通用,所以它們今天可以做幾千件事情,很多令人印象深刻的事情。但是我們每個人在使用今天的聊天機器人和助手時,很容易在幾分鐘內找到它們明顯的缺陷。有些高中數學題它解不出來。有些基本遊戲它玩不了。找到這些系統中的漏洞並不難。對我來說,要稱之為 AGI,它需要在全面上比現在更一致得多。需要花幾個月的時間,也許一個專家團隊才能找到它的一個明顯漏洞。而今天,一個人只需要幾分鐘就能找到。Sergey,這個問題很適合你。

誰會率先達成 AGI?

SERGEY BRIN: 你認為 AGI 會被一家公司達到然後遊戲結束嗎?或者你看到 AGI 會同時出現在 China 或類似組織嗎?這是一個很好的問題。我想一個公司、國家或實體會率先達到 AGI。現在,這有點像一個光譜。它不是一個完全精確的事情。所以有可能會有不止一個大約在同一個時間達到這個範圍。之後會發生什麼?我認為這很難預見。但你當然可以想像會有許多實體陸續達到。在我們的 AI 領域,你知道,我們看到,不管是什麼,當我們取得某種進步時,其他公司很快就會跟進。反之亦然,當其他公司取得某些進步時,這是一種持續的跳蛙式競爭。所以我認為有一種相互啟發的元素。這可能會鼓勵越來越多的實體跨越那個門檻。

ALEX KANTROWITZ: Demis,你怎麼看?

DEMIS HASSABIS: Demis,我認為對這個領域來說,就 AGI 的定義達成共識很重要,所以也許我們應該試著幫助達成共識。假設存在一個,會有一些組織會先達到那裡。而且我認為那些第一個系統能夠可靠且安全地建構起來,這很重要。我想之後,如果情況是這樣,你知道,我們可以想像利用它們來分發許多架構建立在它們之下的系統,這樣你就可以擁有個人化的 AGI 以及各種事情發生。但就像 Sergey 說的,這很困難,很難預測並看到事件視界之外會是什麼樣子。

ALEX KANTROWITZ: 你談到了 AGI 的定義,很多人說 AGI 必須是知識。對吧?大腦的智能。那麼心的智能呢?Demis,簡而言之,AI 必須具備情感才能被視為 AGI 嗎?它能具備情感嗎?

AI 與情感

DEMIS HASSABIS: 我認為你需要理解情感。我認為這將是一種設計決定,如果我們想要模仿情感的話。從理論上講,我看不到任何理由說明它不能。但它可能不同,或者可能不是必要的,事實上,也可能不是我們人類具有的那種情感反應是我們想要的。所以我想,這又是一個開放性問題,隨著我們越來越接近 AGI 的時間框架。以及類似的事件。不過我認為這更像是 5 到 10 年的時間尺度,所以我想我們還有充足的時間來研究這些問題。

ALEX KANTROWITZ: 當我考慮時間框架可能縮短時,我想知道這是否會是自我改進系統的創造?上週,我在讀到一篇標題為「Alpha Evolved」的新聞時,差點從椅子上跌下來,這是一個幫助設計更好演算法、甚至改進 LLM 訓練方式的 AI。所以 Demis,你是不是試圖引發一場智能爆炸?

自我改進系統

DEMIS HASSABIS: 不,不是失控的那種。首先,這是一個了不起的系統,有一個優秀的團隊在做這項工作。現在開始將其他類型的技術,在本例中是進化程式設計技術,與最新的基礎模型結合起來很有趣。這些基礎模型正變得越來越強大。我實際上希望在我們的探索性工作中看到更多這些共同系統和配對系統的出現。你說得對,自我改進是可能讓事物加速發展的一種方式,比它們現在發展得更快。我們之前在 AlphaZero 上看到過這種情況,它在不到 24 小時內從頭學習國際象棋和圍棋,並從隨機狀態開始進行自我改進過程。所以我們知道這是可能的。但是,再說一次,這些是相當有限的遊戲領域,它們被描述得非常好。所以現實世界要混亂得多,複雜得多得多。所以這種方法能否以更一般的方式起作用,還有待觀察。

SERGEY BRIN: 再說一次,我們談論了一些非常強大的系統,這是一場競賽。這是一場開發這些系統的競賽。這就是你回到 Google 的原因嗎?

回到 Google

SERGEY BRIN: 我的意思是,我認為作為一個電腦科學家,這是一個歷史上非常獨特的時刻。老實說,任何身為電腦科學家的人現在都不應該退休,而應該在 AI 領域工作。這就是我想說的。從來沒有過如此巨大的問題和機會,如此巨大的技術突破。所以我不會說是因為這場競賽,儘管我們完全理解 Gemini 將會是第一個 AGI。讓我澄清一下。但是能夠沉浸在這場令人難以置信的技術革命中,我的意思是,這與我經歷過的網路 1.0 時代不同,那也很令人興奮,我們有行動裝置等等。但我認為這在科學上要令人興奮得多。而且我認為最終對世界的影響會更大,就像網路和手機已經產生了很大的影響一樣,我認為 AI 的變革將會更加巨大。

ALEX KANTROWITZ: 你日常工作做些什麼?

SERGEY BRIN: [笑聲] 我想我折磨像 Demis 這樣的人,順帶一提,他很了不起。他容忍我闖進這場爐邊談話。我幾乎每天都在街對面。有很多正在研究關鍵 Gemini 文本模型、預訓練、後期訓練的人。主要是這些,我會定期深入研究一些多模態的工作。你們都看過 VO3 了。但我傾向於深入 technical details。這是我的榮幸,我很享受這種 luxury,幸運的是像 Demis 這樣的人在顧店。而這就是我的科學興趣所在。它深入於演算法以及它們如何演變。

ALEX KANTROWITZ: 好的,我們來談談產品。一些最近推出的產品。我只想問你一個關於 Agent 的廣泛問題,Demis。因為當我看到其他科技公司正在開發 Agent 時,我們在 demo 中看到的是情境感知、具有身體感的語音,而且通常是通過螢幕互動的。你通常會在螢幕上與它互動。當我看到 DeepMind 和 Google 的 demo 時,它通常是通過相機進行的,而且非常視覺化。今天有關於智慧眼鏡的發布。所以談談這是否是正確的解讀?為什麼 Google 對於擁有一個能像你一樣看待世界的助理或伴侶如此感興趣?

AI Agent 與產品

DEMIS HASSABIS: 嗯,這有幾個原因。幾個線索匯聚在一起。正如我們早些時候談到的,我們一直對 Agent 感興趣,這是 DeepMind 的傳統,我們從基於 Agent 的系統和遊戲開始。我們正試圖建立 AGI,這是一種全面的通用智能。很顯然,它必須理解周圍的物理環境、物理世界,而我認為這方面有兩個巨大的用例,一個是非常有用的助理,可以隨時在你日常生活中陪伴你,而不是只停留在你的電腦或一個裝置上。我們希望它在你的日常生活中處處有用。所以它需要陪伴你並理解你的物理情境。另一件大事是,我一直覺得要讓機器人工作,你需要的是你在 Astra 上看到的那種機器人。而且我一直覺得機器人的瓶頸不在硬體,儘管有很多公司正在開發很棒的硬體,而且我們與他們合作。但一直是軟體智能阻礙了機器人技術的發展。但我們現在處於一個非常令人興奮的時刻,終於,隨著這些最新版本,尤其是 Gemini 2.5,以及我們將會帶入的 Veo 技術和其他技術,我認為我們將擁有真正令人興奮的演算法,最終讓機器人工作並實現其巨大的潛力。最終,AGI 需要能夠做到所有這些事情。所以對我們來說,這就是為什麼你可以看到,我們一直有這個想法。這就是為什麼 Gemini 從一開始就設計成多模態的,而且這也是為什麼從一開始就只做文本是很困難的。但最終,我們正在 reaping those decisions 的好處,而且我看到了前排的 Gemini 團隊,我們做出了正確的決定,這些是很難的決定,但我們做出了正確的決定,你今天可以看到所有這些艱難決策的成果。

ALEX KANTROWITZ: 讓我問你關於 Google Glass 的問題。

SERGEY BRIN: 放馬過來。

Google Glass 的教訓

ALEX KANTROWITZ: 你從 Google Glass 學到了什麼,Google 現在在智慧眼鏡重新出現時可以應用?

SERGEY BRIN: 哇,是啊,好問題。我學到了很多。我是說,我肯定覺得我在 Google Glass 上犯了很多錯誤,老實說。我仍然相信這種形態因子。我很高興我們現在有了它。而且現在它看起來像普通的眼鏡,而且前面沒有那個東西。我認為當時存在 technology gap,老實說。現在在 AI 世界裡,這些眼鏡能做的事情可以幫助你,而不會不斷地讓你分心,那種能力已經高得多了。還有就是——我對消費電子產品的供應鏈一無所知,真的,也不知道要建造它並以合理的價格出售會有多困難,以及管理所有製造等等。這次我們有很好的合作夥伴在幫助我們建造這個。所以這是又一個進步。我還能說什麼?我必須說,我懷念有翼裝跳傘員的飛艇演示。顯然在 Shoreline Amphitheater 會比以前在莫斯科酷得多。這次我們應該先完善產品。然後穩步推出,然後再做 demo。這可能比較聰明。

DEMIS HASSABIS: 我要說的是,顯然,我們擁有 incredible history of device and smart devices,我們可以將所有這些學習應用到今天。而且對我們的新眼鏡感到非常興奮,正如你所見。我總是對我們的團隊說的是,我不知道他們是否同意,但我感覺 універсальний помічник 是智能眼鏡的殺手級應用。而且我認為這就是讓它成功的原因,除了硬體技術也進步了很多之外。我覺得這才是它真正的殺手級應用,天然的殺手級應用。

ALEX KANTROWITZ: 關於影片生成,簡短問一下。我今天坐在主題演講的觀眾席裡,被這些模型的改進程度驚呆了。演講中還有電影製片人談論它。Demis,我想特別問你關於模型品質的問題。如果網路充滿了由人工智慧製作的影片,這會不會回流到訓練數據中,導致模型品質低於僅使用人類生成內容進行訓練?

影片生成與數據品質

DEMIS HASSABIS: 是的,對這種所謂的「模型崩潰」有很多擔憂,影片是一回事,但任何模態,文本也一樣。關於這一點,有幾件事要說。首先,我們在數據品質管理和 curation 方面非常嚴謹。另外,至少對於我們所有的生成模型,我們都會附加 SINID,這是一種隱形的 AI 浮水印,它很 robust,自從我們發布以來已經維持了 18 個月。圖像和影片都嵌入了這些浮水印,所以我們可以檢測到,而且我們正在發布工具供任何人檢測這些浮水印,並知道這是 AI 生成的圖像或影片。當然,這對於打擊 Deepfake 訊息很重要。而且,你也可以用它來過濾掉訓練數據中任何你不想有的東西。所以,我其實不認為這是一個大問題。最終,我們可能會擁有如此好的影片模型,你可以將它們放回數據來源的循環中。這被稱為 synthetic data。你只需要小心確保你正在從你將建模的相同分佈中創建數據。你並沒有以某種方式扭曲那個分佈。品質夠高。我們在 AlphaFold 中有這方面的經驗,那是一個完全不同的事情,那裡沒有真實數據來構建 AlphaFold,所以我們需要使用蛋白質結構的早期部分,選擇置信水平,並選擇前 300 到 400 個放回訓練數據中。這是一個前沿領域,將 synthetic data 與 real data 混合。而自動生成的東西,你可以排除它。至少在我們的研究中,如果其他 GenMedia 公司跟隨並加入 robust 的浮水印,這應該是可行的。顯然是為了打擊 Deepfake。

ALEX KANTROWITZ: 我們還有 4 個部分。看看我們能多快完成。Sergey,這個問題給你。10 年後的網路會是什麼樣子?

網路的未來

SERGEY BRIN: 10 年後的網路會是什麼樣子?

DEMIS HASSABIS: 一分鐘。

SERGEY BRIN: 哇,10 年?因為 AI 的進步速度遠遠超乎想像。

ALEX KANTROWITZ: 最好的猜測。

SERGEY BRIN: 不僅僅是網路。我認為我們不知道 10 年後的世界會是什麼樣子。

ALEX KANTROWITZ: Demis。

DEMIS HASSABIS: 嗯,這是一個好答案。我認為在近期內,網路會發生很大的變化,如果你考慮 Agent-first 的網路。它真的需要看到渲染和那些我們人類使用網路時看到的東西嗎?所以未來幾年事情會變得很不一樣。

ALEX KANTROWITZ: 好的。這是一個「高於或低於」的問題。AGI 會在 2030 年之前還是之後達到?

AGI 在 2030 年之前還是之後?

SERGEY BRIN: 2030 年?哇,你真的把它畫在細線上。我會說之前。

ALEX KANTROWITZ: 之前。好的。Demis。

DEMIS HASSABIS: 我剛剛說之後。

ALEX KANTROWITZ: 好的。

SERGEY BRIN: 沒有壓力,Demis。

DEMIS HASSABIS: 我得回去更努力工作了。

SERGEY BRIN: 我可以要求這個。他需要做到。[笑聲] 別敷衍了事。我們下週就要。

ALEX KANTROWITZ: 我會來檢查的。好的。那麼你會雇用在面試中使用 AI 的人嗎?Demis?

在面試中使用 AI

DEMIS HASSABIS: 噢,在面試中?這取決於他們如何使用。使用今天的模型,可能不會。答案取決於他們如何使用。

SERGEY BRIN: 我從來沒有面試過任何人。[笑聲] 我不知道。我覺得我評判別人面試的方式會很虛偽。

DEMIS HASSABIS: 我其實也沒面試過。

ALEX KANTROWITZ: 好的。所以 Demis,我一直在看你的 Tweets。你發了一個非常有趣的 Tweet,內容是一個 prompt 創造了一些自然場景?那是一個 Tweet。Nature to simulation press of a button。這確實讓你好奇,加上幾個 emoji,然後人們就以此寫出頭條:「Demis 認為我們生活在模擬中」。我們生活在模擬中嗎?

我們生活在模擬中嗎?

DEMIS HASSABIS: 不,不是 Nick Boston 和其他人談論的那種方式。這是一種遊戲,儘管我寫了很多遊戲。最終,底層物理學是信息論。所以我們生活在一個計算宇宙中,但不是一個直接的模擬。我無法在一分鐘內回答你。但我認為這些系統能夠建模自然界的真實結構,這非常有趣且說明問題。我一直在思考我們在 AlphaGo 和 AlphaFold 以及這種類型系統上所做的工作。我之前可能談論過,也許在某個時候我會寫一篇科學論文,關於這在現實中真正意味著什麼。

ALEX KANTROWITZ: Sergey,你想寫個頭條嗎?

SERGEY BRIN: 嗯,我認為那個論點可以遞迴應用,對吧?如果我們生活在模擬中,那麼根據同樣的論點,創造這個模擬的存在本身也生活在模擬中,原因大致相同,如此下去。所以我想你要麼接受我們生活在一個無限層次的模擬堆疊中。要麼必須有一個停止條件。

ALEX KANTROWITZ: 你最好的猜測是什麼?

SERGEY BRIN: 嗯,我認為我們正採取一種非常 anthropocentric 的觀點。當我們說模擬時,我們指的是某種有意識的存在正在運行一個模擬,它們具有某種semblance and desire and consciousness to us。這就是對我來說說不通的地方。所以我只是認為我們沒有能力去推理比我們高一個層級的 hierarchy。

ALEX KANTROWITZ: 好的,Demis 和 Sergey。非常感謝你們。這是一次如此引人入勝的對話。謝謝大家。[掌聲] 謝謝大家。♪ ♪ Google 的 AI Stack for developers。Google I/O。Google 的 AI Stack for developers。Google I/O。Google 的 AI Stack for Developers。[掌聲]

Google AI Stack for Developers

JOANA CARRASQUEIRA: 大家好。我叫 Joana Carrasqueira,我負責 Google DeepMind 的 developer relations。

JOSH GORDON: 大家好,我是 Josh。

JOANA CARRASQUEIRA: 我們非常興奮地歡迎大家參加我們的會議。Google AI Stack for developers。我們將首先簡要概述一下 Google 的 AI Stack。這裡有多少人是第一次來?能舉手嗎?好,歡迎來到 Google I/O。今天很高興能和你們在一起。我們將為你們提供一個端到端的 AI 生態系統,正如你們所知,我們在 AI 領域領先了幾十年。自從我們在 2015 年開源 TensorFlow,以及在 2017 年發表了我們定義領域的研究,到 Gemini,我們現在正處於 Gemini 時代。所以我們一直在「無情地」發布,正如人們所稱的。迄今為止,我們已經推出了許多功能、許多新產品。在我們的演講中,我們將會概述整個 AI Stack 中針對開發者的所有新內容。我們的使命是賦予每個開發者和組織利用 AI 的力量。Google 的 Stack 之所以如此優秀和靈活,是因為它結合了非常 robust 的基礎設施和最先進的研究。所有這些使得真實世界的應用得以實現,這些應用正在改變整個領域、產業和公司。我們將從討論基礎模型開始,談論我們的 Gemini、Gemma 以及我們的一些特定領域模型。

基礎模型

JOSH GORDON: 我們使用 AI Framework 來構建基礎模型,我們將談論用於研究的 JAX、用於應用 AI 的 Keras。我們還將談論我們與 PyTorch 正在進行的工作。

JOANA CARRASQUEIRA: 我們還將討論適用於各種經驗水平的開發者工具,從初學者到進階者。

JOSH GORDON: 然後我們將簡要談談基礎設施。這次演講是關於軟體的,不是硬體。我們的硬體基礎設施是 TPU,你們聽到了很多關於它的資訊,但我們將簡要談談 XLA,這是一種機器編譯器,還有一些用於推論的工作,比如大規模地擴展模型,以及使用 XLA 與 JAX 和 PyTorch 進行操作。還有一件事要提一下。我講得太快了。很多這些演講都關於巨大的基礎模型,我將談談 Google AI Edge,並談談裝置上的小型模型,這在很多方面都非常重要。

JOANA CARRASQUEIRA: 好的,讓我們首先探索我們 Stack 中的核心智能。我們將從 Gemini 模型開始,它是我們最強大和多功能的模型系列。Google 的核心理念是為開發者提供最先進的模型以及他們可以使用的工具來構建強大的應用程式。我們的 Gemini 模型以其多模態、長 context 窗口和強大的推理能力而聞名。但我們為不同的用例構建了各種模型。所以根據你嘗試構建的內容,Google 將會提供一個為你的用例量身定制的模型。我想快速地介紹一下這些模型。我知道你們在主題演講中聽說過它們,但快速地回顧一下,Gemini 2.5 Pro,用於高 context 任務和深度推理,它在編寫程式碼方面非常出色,解決更複雜的問題。它在編寫程式碼的 benchmark 上領先,無論是網頁開發,它確實是我們最強大的模型。Gemini 2.5 Flash,開發者們喜歡它,因為它效率高且速度快。而且現在它在幾乎所有維度上都更好了。所以我們改進了推理、編碼、多模態和 long context 的所有 benchmark。我們有 Gemini 2.5 Flash,它快速且便宜。運作良好。

我們的 Gemini Nano,針對 on-demand 任務進行了優化,正如你們所聽到的,我們一直在「無情地」發布新內容,我想快速地highlight 我們在 AI Studio 和 Gemini API 中發布的所有內容。明天有一個演講,我希望你們能參加,那是由 Gemini API 的產品經理組負責人、我們的 Gemini API 技術負責人主講的,他們將深入介紹 Gemini API 中的所有新內容。所以你們絕對不能錯過明天的會議。但現在,只是讓你們對 AI Studio 中的新內容感到興奮的一個 glimpse。我們建構了一個名為「Build」的新應用程式,它可以即時生成網頁應用程式。這真的很酷,因為它使開發者和建構者都能夠使用自然語言快速原型設計。我們在 AI Studio 中也有新的生成媒體體驗,我將 demo 所有這些,這樣你們就可以看到它是如何實際工作的。而且我們一直在傾聽社群的聲音。我們聽取了你們的意見回饋。而且我們一直在以開發者為中心進行建構,這就是為什麼其中一些功能實際上是由社群所期望的。內建的 usage dashboard 就是這樣發生的。你們請求了,我們就建構了。我們在 AI Studio 中還有新的原生音訊 TTS 支持。在 Gemini API 這方面,也有新的 text-to-speech 功能,允許你控制情感和風格,以實現更具表現力和動感的音訊。它在 live API 和用於生成音訊的 generic API 中都可用。

我們在建構這個功能時想到的一些用例包括更動感的有聲書、更具吸引力的 podcast,或者對於那些在客服領域工作的人,在你的工作流程中產生更自然的聲音。我們還有增強的 tooling,這很酷,你可以使用 Google Search 進行 grounding,還可以與 code execution 結合在一起,只需一個 API 呼叫。還有 URL context,你們在主題演講中聽說過,它為模型提供了網頁的深度內容,而且由於你可以將它與其他工具鏈接,它實際上對於構建搜尋 Agent 非常強大。所以這真的很酷。最後,只想提醒一下,我們現在為 MCP 提供 Gemini case 支持,這大大減少了開發者的 friction,並簡化了 agentic capability。所以你們不想錯過明天的演講,以了解更多資訊。Google AI Studio。這裡有多少人使用 Google AI Studio?太棒了。太棒了。那麼會議結束後我們有很多要聊的。Google AI Studio 是任何想開始使用 AI 進行開發的人的完美場所。它是測試最新深度模型的簡單方法,我們將它們帶到 Google AI Studio,這樣你就可以原型設計並玩弄這些模型。你不需要 Google Cloud 的知識來設置你的環境。它是免費的。你可以創建、測試和保存你的 prompt。還有 starter apps 可以啟發你。這正是我今天要為你們 demo 的。我將向你們展示團隊一直在做的一些工作。

所以如果我們去 Google AI Studio,我們進入 Build。Mumble jumble 是我們剛剛創建的東西,它是我最喜歡的 apps 之一。所以 Mumble jumbo 是那些使用自然語言的應用程式之一,它允許你與模型互動,這樣你就可以構建更動態和互動式的音訊體驗。所以讓我們看看。首先,它使用 2.5 preview 原生音訊對話。你可以選擇是 easy to interact 還是 hard to interact。然後你可以進來並調整你的聲音,高音調。所以有很多你可以玩弄的東西,然後你可以自訂。我真的很喜歡狐狸,所以我們就選狐狸吧。讓我們選牛仔,因為我們很快樂,我們在 Google I/O,我們都很高興來到這裡。讓我們拿起我們的麥克風。

Mumble Jumbo App: 嘿,夥伴。小狐狸 Finley 在這裡,準備好迷倒你們。

JOANA CARRASQUEIRA: 你好,今天 Mountain View 天氣怎麼樣?

Mumble Jumbo App: 好的,Mountain View 今天是個好天氣。陽光燦爛,寧靜宜人。非常適合出去走走。

JOANA CARRASQUEIRA: 我同意。Google 校園附近有登山步道嗎?

Mumble Jumbo App: 為什麼不呢?Google 校園附近有很多步道,非常適合一次大冒險和新鮮空氣。

JOANA CARRASQUEIRA: 好的,去那些步道的最佳方式是朝 foothills 前進,跟隨標記的步道。你們會在路上找到它們。你們知道嗎?

Mumble Jumbo App: 你說得對。附近有一些舒適的咖啡館。非常適合你在徒步後休息一下並喝杯好咖啡。

JOANA CARRASQUEIRA: 非常感謝。

Mumble Jumbo App: 這是我的榮幸,夥伴。祝你旅途愉快。享受你的咖啡。

JOANA CARRASQUEIRA: 謝謝你。所以正如你所見,我們正在將一些非常酷的體驗帶入 AI Studio。音訊變得越來越好,如果你沒注意到,我改變了我與模型互動的語言。我用葡萄牙語,我的母語說話,它用好的資訊回答了我。現在 Josh 將在一秒鐘內向你展示在 API 方面到底發生了什麼。我有一個 prompt,我想非常快速地向你展示兩次。以及結果的能力。好的,讓我們非常快速地運行這個。因為我只想在交給 Josh 之前向你展示一件事。正如你所見,思考摘要。模型實際上展示了它是如何思考的。你可以在這裡看到摘要。我們有結果。基本上,AI Studio 和 API 中有什麼可用。Josh 現在就向你展示。

Gemini Developer API

JOSH GORDON: 好的。太好了。所以非常簡要地說,我們有一個叫做 Gemini Developer API 的東西,它真的很棒。它是使用 Google 基礎模型進行開發的最簡單方法。開始的最佳地點是 AI.Google.dev。它被稱為 code execution 和 function calling。我記得和團隊坐下來,拿著一張白紙開始建構,我們用文字 prompting,現在我們有了圖像理解、影片理解,現在我們可以生成圖像和影片,Joana 稍後會向你展示。我們有所有的 developer documentation。有很多很棒的指南和關於模型的資訊,以及你需要開始的一切。

我們還有 Gemini API cookbook。最後我們有這個連結。它是 Google/cookbook。這會帶你到團隊整理的一系列 notebook,這些 notebook 是端到端的例子,關於你可能感興趣的一件事。做 code execution 和 function calling 的最佳方法是什麼?你會在 cookbook 中找到。我想向你展示使用 API 入門是多麼容易。所以,基本上,在 Google AI Studio 中,你不需要信用卡或其他任何東西。大約一分鐘,你就可以點擊獲取 API keys。創建你的 key。現在如果你是第一次這樣做,在幕後,這將自動為你創建一個 Cloud project。但那個細節不重要。基本上,現在我有一個 API key。我準備好安裝 SDK 並呼叫模型了。

如果你打開 chromebook 中的任何一個 notebook,好吧,我們就說它在不同的目錄裡。但是比方說我們打開了這個,它在 quick start 目錄裡,這正是 Joana 向你展示的獲取思考摘要的方法。你可以在 Google Colab 中添加你的 API key。你可以添加新的 secrets。在這個特定的 notebook 中,它呼叫 Google API key。但你可以隨便叫什麼名字。所以你會在那裡添加 Google API key。你會在那裡貼上你的 key。現在你就可以運行這個了,如果你執行 runtime 和 run all 並呼叫 API,那麼你就運行了所有的例子。你也可以直接在 Google Colab 中,我們有這個功能,你可以獲取 Google API key。現在我們可以回到投影片了。所以非常非常快速地總結一下。開始並運行它非常容易,老實說大約只需要一分鐘。我將使用點擊器。這是使用 Google AI Studio 的入門流程。去 Google AI Studio 獲取你的 key。在 AI.Google.dev 或 goo.gle/cookbook 上嘗試例子。我希望這對你有用。如果沒有,請提交一個 issue,我們會處理。這是 Google AI SDK,它是我們最新的 SDK,我們在過去 6 個月裡逐漸推出。

非常簡單和友好。我不想讀文件中的程式碼例子,你可以用幾行程式碼呼叫 API。選擇你的 key,選擇 prompt,你就可以呼叫它了。你可以獲得進階功能,所以如果你想獲取思考摘要。添加一個 thinking summaries 說像狐狸一樣,並獲取思考摘要。任何時候你需要解釋模型的推理,想像一下如果你正在構建一個教育應用程式或輔導應用程式,你可以獲取思考摘要,用單行程式碼就可以做到,使用進階 SDK 也可以做到。我知道這張投影片上有很多程式碼,但我們談到了構建 Agent 和 agentic experience。你可以想像你的筆記型電腦上一個 Python 函數叫做 weather function。也許它呼叫你自己的 weather Server 來獲取天氣。你可以做的是將該函數的定義傳遞給 JSON 格式的 Gemini API,包括函數名稱和它接受的參數。然後你可以做的是編寫一個 prompt。這裡的 prompt 恰好是倫敦的溫度是多少。當你將 prompt 和函數發送給模型時,模型會評估是否應該根據你的 prompt 呼叫該函數。如果應該,它實際上不會呼叫它。但你可以在 function called.name 和 .rag 中看到,它返回函數的名稱和傳遞給它的名稱。你有可以複製貼上的程式碼。而且它同時適用於多個函數。所以想像一下你有一個函數,比如安排會議或其他什麼,你可以通過一些工作來構建一個執行這個任務的 Agent。所以 function calling 非常重要,而且效果非常好。所以 Joana 將談論 GenMedia。

生成媒體模型

JOANA CARRASQUEIRA: 太棒了。所以你可以看到你在 AI Studio 中可以建構什麼,以及在 API 中可用什麼,還有就是建構在我們基礎模型能力之上的。我們的核心智能也與強大的生成媒體模型兼容,它們被設計用於轉變跨內容、跨不同模態(如圖像、影片和音訊)的創意體驗。我想讓你們演示一個我們在 AI Studio 中的新應用程式。

所以我要回到筆記型電腦。我要向你們展示一些團隊剛剛創建的東西。所以 AI Studio 也進行了 face-lift 並增加了一些新功能。新的聊天界面都一樣,但你們在主題演講中看到了 Gemini live 的演講。我們有新的 generative media console,允許你創建和與我們最具創造性的模型互動,然後我們有 Build,所有的新應用程式都在這裡出現。所以我只想非常快速地向你們展示。這是其中一個。來了。然後我們基本上可以在這裡選擇我們想要的聲音。這一切都由 Lyria,我們的音樂生成模型提供支援。♪♪ 為了節省時間,我不會繼續播放它。但你們可以看到我們帶入 AI Studio 的這些模型的能力。我們將繼續回到投影片。

在 console 中,正如你們所見,你可以訪問我們的圖像生成、影片生成和音樂生成模型,還有讓你入門的應用程式。所以這對你來說是一個非常酷的東西,可以在這次會議後玩一玩。我們的一些影片,非常逼真的圖像,對現實世界的物理和動力學有很好的理解。改進的品質以及更多功能將會加入這些模型。這是我剛剛展示的例子。我們使用我們的互動式音樂生成模型 Lyria RealTime,它為 Music FX DJ 提供動力。它在 API 和 AI Studio 中都可用,你可以查看我們的 API documentation 以獲取更多資訊。這也使每個人都能夠即時地互動、創建和表演生成音樂。這真的很酷。你可能記得在第一次主題演講之前的表演中,你可能看過這個 console。這就是為什麼我想在這次會議中向你展示這個特定的應用程式。但之後還有很多你可以嘗試。

Gemma 與開源模型

JOANA CARRASQUEIRA: 轉向 Gemma,今年早些時候,我們發布了 Gemma 3,這是我們最先進的模型。它有四種尺寸。1B、12B、27B,它提供了靈活性,可以優化不同應用程式的性能,從高效的 on-device 推論到可擴展的 Cloud 部署。特別是,4B、12B 和 27B 是多模態和多語言的,而且它在超過 140 種語言中可用,這真的很酷,因為我們 80% 的用戶實際上都在美國以外。你們在主題演講中也聽說過 MedGemma,它是我們最優秀的開源模型集合,用於多模態醫療文本和圖像理解。

它是構建醫療應用程式的一個非常好的起點。它在 4B 和 27B 中都可用。你可以下載模型,並通過 prompting、fine-tuning 或 agentic workflows 將其適應你的用例。我們還宣布了 Gemma 3n。它可以在平板電腦和筆記型電腦上運行。你可以看到 Gemmaverse 正百花齊放,所有這些變體都在不斷開發中。Chill Gemma、dolphin Gemma、now Gemma、sign Gemma。有這麼多功能和選項,看到這一切真的令人興奮。最後一件讓我們非常興奮的事情是,我們現在在 AI Studio 中提供了從 AI Studio 直接一鍵將 Gemma 模型部署到 Cloud Run 的可能性。所以你可以使用 GenAI 來呼叫它,只需要修改兩行程式碼。修改 API key,修改 base URL,就完成了。這是最簡單的部署方式。現在 Josh 將會向你介紹所有的 frameworks。

AI 框架

JOSH GORDON: 謝謝。好的,所以我們談論了很多 focused models。Gemma 和 Gemini。現在我們將談論 Google 和社群用來建構它們的 framework。有很多很酷的東西要介紹。讓我們從最簡單的方法開始, fine-tune 一個模型,所以,在開發者主題演講中,Gus 展示了一個能說 emoji 的 Gemma 版本,這是一種他和女兒一起發明的語言。一種方法是你可以直接 prompt 模型說 emoji。在很多情況下,prompting 就足夠了。但如果你有非常大量的數據,或者你正在建構一個嚴肅的應用程式,比如醫療或醫學領域的應用程式,你可以做的是 fine-tune 模型,使其更好地配合你的數據。關於這一點,一個非常非常棒的事情是,事實上,它聽起來很複雜,但在實踐中並非如此。你只需要一個兩欄的 CSV 文件,你就可以使用我們的 Keras 找到帶有 prompt 和 residence 以及幾千行的東西。

而 Keras 是我最喜歡的應用 AI 的方式。這意味著在實踐中使用 AI。你可以看到我們倆都非常關心醫療和醫學,所以,使用這項技術,在這些領域有很多很棒的、數不清的機會來做好事。你可以訓練模型去做一些真正有用的事情。所以我們有一個非常棒的 tutorial 關於這個。老實說,大約只有 5 行關鍵程式碼。你從 Keras Hub 導入一個 Gemma 模型,這個模型是 instruction-tuned 的,你可以在 tune 和 LoRA fine-tuning 的一行中 prompt 它,這聽起來很 fancy 但並非如此。所以 Keras 非常適合應用 AI。如果你正在進行研究,我們有一個很棒的 framework 叫做 JAX。JAX 是一個 Python machine learning library。關於它我有兩點要說。第一點是,在最高規模下,JAX 是最佳選擇。所以它可以很容易地擴展到數萬個加速器。它非常強大,我們用它來建構 Gem 和 Gemini。我們也可以建構很棒的基礎模型。我喜歡 JAX 的一點是,因為我在一個更簡單的層面上操作,它的核心是一個 Python machine learning library,具有 non-pi API。當一個新模型出來時,我需要花很長時間才能理解它。我喜歡做的是在 pi 中逐行實現它,我只是理解輸入、輸出、形狀,在 non-pi 中調試它。你可以在 non-pi 中做到這一點,而且有很多你可以閱讀和 coding 的 transforms,比如抓取並獲取 gradient。並將程式碼對齊到 GitHub。而且不需要改變任何其他東西,你就可以在 GPU 和 TPU 上運行它。JAX Core 為你提供了一個仔細思考 machine learning 中不同技術的好方法,當你準備好時,你可以擴展它們,而無需真正改變你的程式碼。這真的非常非常棒。在 JAX 之上,有很多 libraries 的生態系統,這超出了本次演講的範圍。

所以 Google 社群中有很多很棒的 libraries,比如 optimizer、checkpoints 以及實現你的 network。你不需要從零開始做。就像我學習新東西一樣,你學習一次從零開始做,它讓我的腦袋清楚起來。你想要跳過那一部分,只給我一個在 JAX 中實現的超級優化的 large language model,它真的可以擴展到數百或數千個加速器,那麼就有很酷的 GitHub library。MaxText,正如你可能猜到的,具有 large language model 的 reference implementation,MaxDiffusion,正如你可能猜到的,具有 models 的 reference,你可以生成美麗的圖像等等。這些可能需要一些工作,但我們正在努力使其超級用戶友好。但目前它們是為特定用途設計的,我想我思考它的方式是,無論如何,擴展需要工作。但它們很棒。使用 JAX,這昨天剛發布。我想向你們介紹社群中一些真正令人驚嘆的新工作。所以我們一直在談論 Google 的基礎模型。這是 Stanford University 剛剛發布的一個新的基礎模型。這叫做 Marin。它恰好是使用 JAX 和 TPUs 建構的,這很棒。但它特別之處在於,Marin 是一個完全開源的模型。所以除了分享權重和架構之外,他們還分享了用於訓練它的數據集以及用於過濾的程式碼,還有成功的實驗和不成功的實驗,所以這是 open science 中模型開源的一個很好的基礎。他們使用了 Google TPU Research Cloud,這是一個集合。如果你是研究人員,你可以申請訪問 TPU。基本上是免費的叢集,你可以使用 TPUs 進行這類研究。簡而言之,我們談到了在 Keras 中進行 LoRA training,或者說 LoRA post-training,我將向你展示我們在 JAX 中正在做什麼。我們正在研究一個名為 tunics 的新 library。

我們正在與社群和來自一流大學的研究人員一起建構它,其願景是讓它成為一個易於使用的 library,並包含 JAX 中最新的 post-training 演算法。我認為它會非常棒,請持續關注。這就是 tunics。

基礎設施與部署

JOSH GORDON: 除了 libraries,非常簡要地談談基礎設施。TPUs,硬體,超出了本次演講範圍。但我想提一個非常酷的軟體包,叫做 XLA。XLA 基本上是你的 machine learning 程式碼的編譯器。

它的工作方式是,當你使用像 JAX、Keras、TensorFlow 或 PyTorch 這樣的 library 時,你正在用 Python 編寫程式碼,然後它不知何故就被優化並在 GPU 和 TPU 上運行,XLA 是 Google 用來實現這一點的編譯器,而且世界上最大型的語言模型開發者都在使用它,它會接收你的 Python 程式碼,並進行一系列優化,然後在加速器上運行。XLA 的一個優點是它具有可移植性,而且你從來不會被鎖定在某個 GPU、TPU 或其他類型的加速器上,這點非常好,我們非常喜歡它。重要的事情是,現在 PyTorch 可以與 XLA 一起工作。所以 PyTorch 有一個很棒的生態系統和很棒的 library。你可以使用 PyTorch,並獲得隨之而來的所有好處。除了訓練模型,我們還與 vLLM 社群做了很多很棒的工作。所以你可以在 TPUs 上使用 vLLM,這是一個超級流行的 inference engine,現在有了 TPU 支持,所以這對 PyTorch 開發者來說是可用的,我們正在努力將 JAX 添加到 LLM 中。這是與社群合作的更多很棒的工作。這是一個由 Red Hat、Nvidia 和 Google 之間的新合作夥伴關係。它是 LLM D。這是一個分散式服務。將最佳的服務實踐開源,並使其對所有人可用,並且讓這個項目與 JAX 和 PyTorch 一起工作。

所以這是一個非常酷的新項目。還有一些更複雜的東西,你可以查看並持續關注。這會非常棒。

Google AI Edge

JOSH GORDON: 好的。所以我們已經快速地介紹了 Google 的基礎模型、用於訓練它們的不同 frameworks、在 Cloud 上服務它們的不同方式。現在讓我們簡要地看看如何將它們部署到行動裝置上。你可以使用 Google AI Edge 來實現這一點,它基本上是一個框架,用於將 machine learning 部署到 Android、iOS 等裝置上,讓它們在瀏覽器和嵌入式裝置上運行,這就是 Google.ie 和 Google.io。如果你是來自 Python machine learning 開發者,我在後端工作,有很多很好的理由你可能想部署到行動裝置。一個是延遲。所以你可以想像如果你正在做像手語識別這樣的事情,也許用戶正在舉手做手勢,你不希望丟失幀。如果你把這些幀發送到 Cloud 上的 Server,除非你擁有世界上最快的網際網路連接,否則你會丟失幀。但如果你有 is a suggestion recognition model,你就不會。其他原因包括隱私,數據不需要離開裝置。很多這些是離線的。我知道這對行動裝置開發者來說是顯而易見的。如果你在飛機上工作,並在那裡運行你的 machine learning 模型。成本節省也是非常重要的一點。所以如果你正在為大量用戶在 Cloud 上提供模型服務,你可能需要支付計算費用來服務它。但如果它在手機上運行,它就是本地運行的。Google AI Edge 中有很多酷的東西,我們添加了最新的 Gemma 模型,這適用於經典的 machine learning,也就是 deep learning,它正在迅速變得經典,比如手勢識別,它在幾年前還是最先進的,現在已經是經典的了。但你可以在裝置上運行 small language models。我們與 Hugging Face 社群有很多合作,有很多聰明的人準備在預優化過的裝置上運行模型。這即將在 AI Edge Portal 上推出,它基本上是一個測試服務。所以你將你的模型提交到 Cloud 服務,它會在各種不同尺寸的真實裝置上運行,以驗證它運行得很好。所以如果你對更多開發感興趣,請查看 Google AI Edge,它真的很酷。好了,接下來將交給 Joana 來談談下一步是什麼。

AI 的未來

JOANA CARRASQUEIRA: 太棒了。謝謝你,Josh。你們在主題演講中和 Demis 和 Sergey 的上一場會議中都聽到了。我們正在 Google 和 Google DeepMind 推動 AI 建構的可能性邊界,我們非常興奮能將所有這些創新帶給開發者和社群。現在是建構和共同創造的最佳時機。所以我們堅信未來 AI 將會改變科學發現、醫療保健等各個領域。我們將以安全和負責任的方式實現這種徹底的豐富,我們希望與你們、與社群一起實現這一目標。所以讓我們看看我們認為對開發者和人類有巨大潛力的領域。Alpha Evolved。用於設計 advanced algorithm 的 Gemini coding Agent。一個自我改進的 coding Agent。我們都知道 large language models 可以總結文件。它們可以生成程式碼。你甚至可以與它們進行腦力激盪。但 Alpha Evolved,我們正在針對數學和編碼中這些基礎且高度複雜的問題。Alpha Evolved 讓 Gemma、Flash 和問題合作,這是未來的一大承諾。另一個讓我非常興奮的是 AI Co-scientist。這是我們看到的另一個科學突破,特別是在醫療和醫學以及研究領域。我們的目標是加速這一發現和藥物開發的速度,使用 AI Co-scientist,科學家可以 literally 在自然語言中將研究目標提供給 Agent。然後 AI Co-scientist 被設計用來給你一個概述、一個假設和一個方法論。為此,它使用了一系列不同的 Agent,這些 Agent 可以合作,我們有 Generation Agent、Review Ranking Evolution Proximity 和 Method Review,它們都是從科學方法本身中獲得靈感並驅動創造的。所以這是另一個巨大的突破,也是我們將繼續在 Google DeepMind 看到發展的領域。最後,我們正在看到巨大進展的領域。我們預計在這個領域將繼續有更多的未來突破,這就是特定領域模型。而 Gemini Robotic Models 目前處於 private early access 階段,是 advanced vision、language、action 模型,特別是針對 robotic agnostic 的新增了 physical actions 作為新的輸出模態,這些模型可以用於任何東西,從人形機器人到大型工業機械。所以這真的令人興奮。Gemini Robotic 已經 fine-tuned 得非常靈巧,這就是為什麼你可以看到這麼多酷炫的用例和應用,從折紙(這有點複雜)到只是拿著一個三明治袋。如此多的新創新正在實現,我們將繼續在所有這些不同領域推動可能性的邊界。

了解更多

JOANA CARRASQUEIRA: 現在,如果你想了解更多,有很多方法可以繼續與我們互動,你可以給我們回饋。我們在社群媒體上也很活躍。我們有一個開發者論壇,你可以在那裡直接與 Googlers 互動。所以為了了解更多,Josh,我們的開發者需要做什麼?

JOSH GORDON: 我們有一些連結給你們。沒問題。但我們談論了很多不同的工具和 Stack。所以我不想讀這張投影片,但 AI.Google.dev 是最好的地方。我們有 Gemini 的 cookbook 和 Gemma 的 cookbook。還有 AI.Google studio.com。如果你恰好是 XLA 的專家,請查看 XLA.org。如果你對部署感興趣,並需要澄清一下,Stack 中有很多我們今天沒有時間談論的東西。但從這裡開始,玩得開心,我們在演講後會在這裡。

JOANA CARRASQUEIRA: 絕對。我們的 Developer Relations 團隊就在外面。我們有非常酷的 demo stations,你們可以親身體驗並與團隊互動。請查看明天的會議,特別是關於 Gemini API、Gemmaverse 和 robotics 的。我們有很多酷的東西想交到開發者手中。許多是早期體驗計畫。保持聯繫。保持參與,讓我們一起共同創造 AI 的未來。非常感謝。

JOSH GORDON: 謝謝大家。[掌聲] ♪♪