原文連結: Google I/O '25 Keynote
歡迎來到 Google I/O:Gemini 時代的進展
SUNDAR PICHAI: 哇,真酷的影片!看起來團隊玩得很開心。大家好,早安!歡迎來到 Google I/O。
[ 歡呼與掌聲 ]
很高興見到各位來到 Shoreline,也向全球線上參與的各位問好。我得知今天開始進入 Gemini 季節。不太確定有什麼大不了的;在 Google,每天都是 Gemini 季節。通常情況下,在 I/O 前的幾週,你們不會聽到太多我們的消息。那是因為我們會把最好的模型留到這個舞台上。但在我們的 Gemini 時代,我們很可能在三月的某個隨機星期二發布我們最智能的模型,或者在一週前發布像 AlphaEvolve 這樣非常酷的模型。我們希望盡快將我們最好的模型交到你們手中和我們的產品中,因此我們的發布速度比以往任何時候都快。自上次 I/O 以來,我們已經發布了十多個模型和研究突破,並推出了 20 多項主要的 AI 產品和功能。我對模型發展的迅速進展感到特別興奮。你們可以在這裡看到函數式變化。Elo 分數是衡量進步的一種方式,自第一代 Gemini Pro 以來,分數提升了 300 多點。今天,Gemini 2.5 Pro 在 LMArena 排行榜上橫掃所有類別。
[ 掌聲 ]
它在許多基準測試中都達到了最先進水平,我們在編碼方面也取得了迅速進展。我們更新後的 2.5 Pro 在 WebDev arena 上排名第一,現在超越了先前版本 142 Elo 分數。這多虧了各位,它在頂級編碼平台獲得了廣泛讚譽。在領先的 AI 代碼編輯器 Cursor 上,Gemini 是今年增長最快的模型,每分鐘產生成千上萬行被接受的代碼添加。
這個最新的里程碑可能是最令人印象深刻的,至少在某些圈子裡是如此。幾週前,Gemini 完成了 Pokémon Blue。
[ 掌聲 ]
它贏得了所有八個徽章,走完了勝利之路,擊敗了 Elite 4 和冠軍,讓我們離實現 API (Artificial Pokémon Intelligence) 又近了一步。
[ 笑聲 ] [ 掌聲 ]
基礎設施與 AI 應用普及
所有這些進展都得益於我們世界領先的基礎設施,這是我們 AI 全棧方法的基礎。我們的第七代 TPU Ironwood 是第一個專門為大規模思考和推理而設計的。它比前一代提供了 10 倍的性能,並且每個 Pod 包含令人難以置信的 42.5 exaflops 計算能力。真是太棒了。今年晚些時候它將提供給 Google Cloud 客戶。
[ 掌聲 ]
我們的基礎設施實力,直到 TPU,幫助我們提供 dramatically 更快的模型。在 LMArena 排行榜上的頂級模型中,Gemini 在每秒生成的最高輸出 tokens 數方面佔據了前三名,同時模型的價格也顯著下降。價格和性能之間存在著艱難的權衡,然而我們一次又一次地能夠以最有效的價格點提供最好的模型。Google 不僅走在 Pareto 前沿,我們還從根本上改變了前沿本身。結果是:更多的智慧,無處不在,人人皆可得。世界正在以前所未有的速度響應和採用 AI。作為進展的一個標誌,去年這個時候,我們在產品和 API 中每月處理 9.7 兆個 tokens。現在,我們每月處理 480 兆個 tokens。這在短短一年內增長了約 50 倍。
[ 掌聲 ]
我們還看到開發者 API 工具的快速採用。今天,超過 700 萬開發者通過 Google AI Studio 和 Vertex AI 使用 Gemini API 進行開發,這是自上次 I/O 以來的 5 倍增長。而 Vertex AI 上 Gemini 的使用量自去年以來增長了 40 多倍。AI 在我們的產品中的採用正在增加。Gemini 應用程式現在每月活躍用戶超過 4 億,而且我們看到了強勁的增長和參與度,特別是使用 2.5 模型。對於在 Gemini 應用程式中使用 2.5 Pro 的用戶,使用量增加了 45%。稍後您將聽到更多關於 Gemini 應用程式的資訊。我們在 Search 中也看到了令人難以置信的動力。今天,AI Overviews 每月用戶超過 15 億。這意味著 Google Search 將生成式 AI 帶給了世界上任何其他產品都更多的人。除了 AI Overviews,AI Mode 是 Search 的下一個重要步驟。稍後您將聽到更多關於這方面的資訊。
從研究到現實:產品應用案例
所有這些進展意味著我們正處於 AI 平台轉移的新階段,數十年的研究正成為全球人們的現實。我想分享三個研究如何轉變我們當今產品的例子:Project Starline、Astra 和 Mariner。我們幾年前在 I/O 首次展示了 Project Starline,這項突破性的視訊技術。目標是創造一種即使相隔遙遠也能感覺到在同一個房間裡的體驗。我們一直在技術上取得進展,今天,我們準備宣布下一個篇章。介紹 Google Beam,一個全新的 AI 優先視訊通訊平台。Beam 使用一種新的最先進的視訊模型,將 2D 視訊流轉變為逼真的 3D 體驗。在幕後,六個攝影機陣列從不同角度捕捉您。藉助 AI,我們可以將這些視訊流合併並在 3D 光場顯示器上呈現您。具有近乎完美的頭部追蹤,精確到毫米,並以每秒 60 幀的速度,全部都是即時的。結果是:一種更自然、更深度沉浸的對話體驗。我們非常高興能將這項技術帶給其他人。與 HP 合作,首批 Google Beam 設備將於今年晚些時候向早期客戶提供。HP 將在幾週後分享更多資訊。敬請期待。
[ 掌聲 ]
多年來,我們一直在將 Starline 的基礎技術融入 Google Meet。這包括即時語音翻譯,以幫助人們打破語言障礙。這裡有一個例子,說明在南美洲預訂度假租賃時,如果您不會說當地語言,這項技術會有多麼有用。讓我們看看。
你好,Camila。讓我開啟語音翻譯。
[ 翻譯成西班牙語 ]
你會玩得很開心,我想你會喜歡參觀這座城市。這棟房子在一個非常好的社區,俯瞰著山脈。
這聽起來太棒了——
[ 翻譯成西班牙語 ]
附近有公車站,但我建議租一輛車,這樣你就可以參觀大自然並享受它。
這聽起來很棒——
[ 翻譯成西班牙語 ]
[ 掌聲 ]
SUNDAR PICHAI: 你可以看到它與說話者的語氣、語調甚至表情匹配得有多麼好。我們距離實現跨語言的自然流暢對話又近了一步。今天,我們在 Google Meet 中直接引入了這項即時語音翻譯功能。英文和西班牙文翻譯現在可供訂閱用戶使用,未來幾週將推出更多語言,即時翻譯將於今年晚些時候向企業用戶提供。
[ 掌聲 ]
Project Astra 與代理能力
另一個在 I/O 舞台上首次亮相的早期研究專案是 Project Astra。它探索了能夠理解周圍世界的通用 AI 助理的未來能力。我們正在開始將其應用於我們的產品。今天,Gemini Live 具備 Project Astra 的攝影機和螢幕分享功能,因此您可以談論您看到的任何事物。人們正在以多種方式使用它,無論是為工作面試練習,還是為馬拉松訓練。我們感謝我們的信任測試人員和一些不太受信任的測試人員的反饋。請看。
那輛敞篷車真不錯。
GEMINI: 我想你可能把垃圾車誤認為敞篷車了。還有什麼我可以幫你的嗎?
這棟瘦長的建築在我家附近做什麼?
GEMINI: 那是路燈,不是建築。
這些棕櫚樹為什麼這麼矮?我擔心它們。
GEMINI: 它們不矮。它們其實挺高的。
這輛敞篷車真酷。
GEMINI: 又是垃圾車。還有別的嗎?
為什麼人們老是把包裹送到我的草坪上?
GEMINI: 那不是包裹,那是公用事業箱。
這個人為什麼走到哪都跟著我?
GEMINI: 沒人跟著你。那只是你的影子。
[ 掌聲 ]
SUNDAR PICHAI: Gemini 在告訴你錯在哪方面表現得相當不錯。我們從今天開始將這項功能向 Android 和 iOS 上的所有人推出。
[ 掌聲 ]
Project Mariner 與代理生態系統
接下來,我們還有一個研究原型,Project Mariner,一個可以與網路互動並完成任務的代理。回過頭來看,我們將代理視為結合了先進 AI 模型智慧和工具訪問權限的系統。它們可以代表您並在您的控制下採取行動。電腦使用是一項重要的代理能力。這使得代理能夠與網路瀏覽器和其他軟體互動。Project Mariner 是測試電腦使用能力方面的早期進展。我們在 12 月將其作為一個早期研究原型發布,從那以後我們取得了很大進展。首先,我們引入了多任務處理,它現在可以同時監督多達 10 個任務。其次,它正在使用一個叫做「教與重複」(Teach and Repeat) 的功能。這是你可以向它展示一次任務,然後它就會學習未來類似任務的計劃。我們正在通過 Gemini API 向開發者提供 Project Mariner 的電腦使用能力。像 Automation Anywhere 和 UI Path 這樣的信任測試人員已經開始使用它進行開發,今年夏天將更廣泛地提供。電腦使用是我們需要為代理生態系統繁榮發展而構建的更廣泛的工具集的一部分,比如我們的開放代理間協議,以便代理可以相互通信。我們在 Cloud Next 上與 60 多個技術合作夥伴的支持下發布了這項協議,並希望看到這個數字繼續增長。然後還有 Anthropic 推出的模型情境協議 (model context protocol),以便代理可以訪問其他服務,今天,我們很高興地宣布我們的 Gemini SDK 現在與 MCP 工具兼容。
[ 掌聲 ]
這些技術將協同工作,使代理變得更加有用,我們正開始將代理能力引入 Chrome、Search 和 Gemini 應用程式。讓我向您展示我們在 Gemini 應用程式中感到興奮的地方。我們稱之為代理模式 (Agent Mode)。如果您想為您和兩個室友在 Austin 尋找一套公寓。你們每個人每月預算 1,200 美元。您想要有洗衣機、烘乾機,或者至少附近有自助洗衣店。通常情況下,您需要花費大量時間滾動瀏覽無數的列表。使用代理模式,Gemini 應用程式會在幕後工作。它會從 Zillow 等網站找到符合您條件的列表,並在需要時使用 Project Mariner 調整非常具體的篩選條件。如果您想查看某個公寓,Gemini 會使用 MCP 訪問列表,甚至代表您安排參觀。並且它會根據您的需要持續瀏覽新的列表,讓您可以去做您想做的事情,比如計劃入厝派對。這對像 Zillow 這樣的公司來說非常棒,可以帶來新客戶並提高轉換率。並且 Gemini 應用程式中的代理模式實驗版本即將向訂閱用戶提供。這是一個新的、正在發展的領域,我們很高興探索如何最好地將代理的優勢更廣泛地帶給用戶和生態系統。
個人化:個人情境
將研究轉化為現實的最佳方式是讓它在您自己的現實中真正有用。這就是個人化將發揮巨大作用的地方。我們正努力通過我們稱之為「個人情境」(Personal Context) 的東西來實現這一點。在您允許的情況下,Gemini 模型可以以一種私密、透明且完全由您控制的方式,利用您 Google 應用程式中的相關情境。讓我向您展示一個在 Gmail 中的例子。您可能熟悉我們的 AI 驅動的智慧回覆功能。它們的受歡迎程度令人驚嘆。現在,想像一下這些回覆聽起來像您一樣。這就是個人化智慧回覆的想法。假設我的朋友寫信給我尋求建議。他要駕車去 Utah 旅行,他記得我之前去過這趟旅行。老實說,我可能會回覆一些簡短且沒什麼幫助的話。抱歉,Felix。但有了個人化智慧回覆,我可以成為一個更好的朋友。這是因為 Gemini 幾乎可以為我完成所有的工作,它會查看我在 Drive 中的筆記,掃描過去的電子郵件查找酒店預訂,並在 Google Docs 中找到我的行程。Zion National Park 之旅。Gemini 匹配我過去電子郵件中常用的問候語,捕捉我的語氣、風格和偏好的詞彙,然後自動生成回覆。我喜歡它加入了每天駕駛時間保持在五小時以內的細節。它使用了我最喜歡的形容詞「令人興奮的」。看起來不錯。也許你想做一些修改,然後點擊發送。這項功能將於今年夏天在 Gmail 中向訂閱用戶提供。
[ 掌聲 ]
你可以想像個人情境在 Search、Docs、Gemini 等應用程式中會有多麼有用。今天,我已經談到了智慧、代理和個人化。這些是我們將取得進展的一些前沿領域,您將在主題演講中聽到更多例子。但首先,我想邀請一位可以分享更多關於推動我們未來創新的智慧的人。去年,我介紹他是 S S Demis。今年,我們可以將諾貝爾獎得主加入他的頭銜列表。請 Demis 上台。
[ 掌聲 ]
持續不斷的 AI 進步
DEMIS HASSABIS: 大家好。很高興再次來到 I/O。我們正經歷一個非凡的歷史時刻,AI 使令人驚嘆的新未來成為可能。對我們來說,這是持續不斷進步的一年。正如 Sundar 所說,人們喜歡與 Gemini 2.5 互動。我們看到你們與它一同 vibe-code,一次性構建遊戲和應用程式。你們利用其強大的推理能力處理從解析科學論文到理解 YouTube 影片的各種事物。你們告訴我們,你們在使用 Gemini 時發現它有多麼協作、有見地和真正有幫助。看到你們用它做和構建的令人驚嘆的事情,我們感到非常興奮。Gemini 2.5 Pro 是我們迄今為止最智能的模型,也是世界上最好的基礎模型。就在兩週前,我們發布了更新的 2.5 Pro 預覽版,這樣您就可以親自體驗並立即開始使用它進行構建。你們所創造的作品給我們留下了深刻的印象,從將草圖轉換為互動式應用程式,到模擬整個 3D 城市。新的 2.5 Pro 位居流行的編碼排行榜 WebDev arena 榜首,現在它整合了 Learn LM,這是我們與教育專家合作建立的模型家族,2.5 Pro 也成為學習領域的領先模型。並且它在 LMArena 的所有排行榜中都排名第一。Gemini Flash 是我們最高效的主力模型。它在開發者中非常受歡迎,他們喜歡它的速度和低成本。今天,我非常興奮地宣布我們正在發布更新版本的 2.5 Flash。新的 Flash 在幾乎所有方面都更好,在推理、代碼和長情境等關鍵基準測試中都有所改進。事實上,它在 LMArena 排行榜上僅次於 2.5 Pro。我很高興地說,Flash 將於 6 月初普遍可用,Pro 也緊隨其後。
[ 掌聲 ]
我們正在根據您的反饋進行最終調整,但您現在可以在 AI Studio、Vertex AI 和 Gemini 應用程式中嘗試預覽版。一如既往,我們正致力於不斷推動最先進技術向前發展,並且我們對最新的研究進展感到興奮。為了向您介紹更多內容,我想請 Tulsee 上台。但首先,讓我們看看您今天使用 Gemini 正在構建什麼。
[ 音樂 ]
你能... 嗯... 讓一些五彩紙屑圈從我的滑鼠中爆發出來嗎?
GEMINI: 我已經更新了草圖。好的。接下來我們應該構建什麼?
這裡還有 30 個主意供你參考。
[ 音樂 ] [ 掌聲 ]
開發者功能與能力提升
TULSEE DOSHI: 謝謝 Demis。我非常興奮地分享我們正在創建的改進,以便像各位這樣的開發者更容易使用 Gemini 2.5 進行構建。所有改進都基於您的反饋,具有增強的功能、更高的安全性和透明度、更好的成本效益以及更多的控制。首先,除了 Demis 提到的新的 2.5 Flash,我們還將引入新的文本轉語音預覽版。這些預覽版現在具有第一個同類的多說話人支持,支持兩種聲音,基於本機音訊輸出構建。
GEMINI: 這意味著模型可以以更具表現力的方式進行對話。它可以捕捉我們說話時真正微妙的細微差別。(耳語)它甚至可以無縫地切換到耳語,就像這樣。
TULSEE DOSHI: 這項功能支持超過 24 種語言。而且它可以輕鬆地在不同語言之間切換。
GEMINI: 所以模型可以開始說英文,但隨後...
[ 說印地語 ]
並且切換回來,全部使用同一個聲音。
TULSEE DOSHI: 非常棒,對吧?
[ 掌聲 ]
您今天就可以在 Gemini API 中使用這項功能。
[ 掌聲 ]
Live API 也將於今天稍晚提供本機音訊對話的 2.5 Flash 預覽版,這樣您就可以構建與更自然的 Gemini 進行對話的體驗。它甚至能夠區分說話者和背景聲音,以便知道何時回應。Logan 和 Paige 將在開發者主題演講中向您展示更多內容。其次,我們加強了對安全威脅(如間接提示注入)的保護,因此 Gemini 2.5 是我們迄今為止最安全的模型!並且在 2.5 Pro 和 Flash 中,我們通過 Gemini API 和 Vertex AI 提供了思維摘要 (thought summaries)。思維摘要會將模型的原始思維組織成清晰的格式,包含標題、關鍵細節和模型行為(如工具呼叫)的資訊。這增加了您對模型思維過程的透明度,這對於高延遲任務尤其有用,同時也易於調試和使用。您還要求更高的效率,因此今天的 2.5 Flash 更加高效,減少了模型實現相同性能所需的 tokens 數量,在我們的評估中帶來了 22% 的效率提升。最後,我們發布了帶有思考預算 (Thinking Budgets) 的 2.5 Flash,以便您可以控制成本和延遲與品質的權衡,反饋非常好,因此我們將思考預算帶到 2.5 Pro,這將在未來幾週內隨我們的普遍可用模型一起推出。通過思考預算,您可以更精確地控制模型在回應之前用於思考的 tokens 數量,或者您可以簡單地將其關閉。
使用 Gemini 2.5 Pro 編碼
現在,正如您從 Demis 那裡聽到的,Gemini 2.5 Pro 在編碼方面非常出色,所以現在,讓我向您展示如何將您的任何想法付諸實踐。如果您曾經去過 New York City 的美國自然歷史博物館 (American Museum of Natural History),那裡有一系列令人驚嘆的展覽,所以為了今天將它帶給您,我讓 2.5 Pro 在 Google AI Studio 中為我編寫了一個簡單的網頁應用程式,用來分享一些照片並了解更多資訊。這是我目前為止的進度,但我想讓它更具互動性。我還在構思設計,但我有一些想法。你們之前見過類似的東西,對吧?有人拿著一張寫在餐巾紙上的精彩想法來找你。作為一個產品經理,我經常是這個「某人」。現在,標準的二維網頁設計是一回事,但我想把它變成 3D 的。我了解到跳入 3D 並不容易。它需要學習各種新的東西:設置場景、攝影機、燈光等等。幸運的是,2.5 Pro 可以提供幫助。在這裡,我將添加我剛剛展示的球體的圖像,然後我將添加一個提示,要求 2.5 Pro 根據圖像更新我的代碼。我們讓 2.5 Pro 開始工作,正如您所看到的,它正在開始思考並根據我的要求創建計劃,然後將其應用到我現有的代碼庫中。因為 Gemini 是多模態的,它可以理解抽象的球體草圖,並編寫漂亮的 3D 動畫,將其應用到我現有的應用程式中。這大約需要兩分鐘,所以為了節省時間,我們將採用烘焙節目的方式,我將跳到我在主題演講前使用相同提示運行的另一個標籤頁。
這就是 2.5 Pro 生成的結果。哇!
[ 掌聲 ]
我們從一個粗略的草圖直接轉換為代碼,更新了我的多個檔案,而且你實際上可以看到它思考了 37 秒,並且你可以看到它思考過的變化以及它更新的檔案。我們在 AI Studio 中完成了所有這些工作,所以當我完成原型設計後,我可以簡單地部署代碼以及我的 Gemini API 密鑰。這是我們在 Chrome 中的最終應用程式。看看這些動畫!而且我不需要具備 three.js 函式庫的進階知識,也不需要弄清楚複雜的 3D 數學來構建這個。我知道手工完成這項工作將需要花費很長時間,相反,我只是根據一個草圖就創建了它。我可以使用多模態讓這個體驗更加豐富。所以我使用了 2.5 Flash 在每張照片上添加了一個問題,邀請你了解更多關於它的資訊。但如果它能說話呢?這就是 Gemini 的本機音訊發揮作用的地方。
GEMINI: 那是穿山甲,牠的鱗片由角蛋白構成,就像你的指甲一樣!
TULSEE DOSHI: 哇,現在我們來談談。你可以聽到如何在你的應用程式中直接添加富有表現力的音訊。在我分享更多內容之前,我會用另一個有趣的佈局來結束這個演示,這個佈局是 2.5 Pro 為我們專門編寫的!
[ 掌聲 ]
我們已經在 Google AI Studio 中提供了基於這個演示構建的入門代碼,供任何人使用。所以去試試吧。這只是 Gemini 2.5 如何改變我們構建方式的一個例子,以及你如何利用這些不可思議的功能將視覺、語音和編碼整合到你自己的應用程式中。2.5 Pro 可以在你喜歡的 IDE 平台上使用,也可以在 Android Studio、Firebase Studio、Gemini Code Assist 和我們的非同步編碼代理 Jule 等 Google 產品中使用。
[ 掌聲 ]
只需提交一個任務,Jules 就會處理剩下的事情:修復錯誤、進行更新。它與 Github 整合,可以獨立工作。Jules 可以在大型代碼庫中處理過去需要數小時的複雜任務,比如更新舊版本的 Node.js。它可以在幾分鐘內計劃步驟、修改檔案等等。今天,我很高興地宣布 Jules 現已進入公開測試階段,任何人都可以通過 jules.google 註冊。
[ 掌聲 ]
AI 編碼代理與擴散模型
正如 Demis 所說,我們一直在創新新的方法來改進我們的模型,包括提高它們的效率和性能。我們首先通過開創性的擴散技術徹底改變了圖像和影片生成。擴散模型通過逐步細化噪聲來學習生成輸出。今天,我們正在將擴散技術的力量帶到文本領域,這項技術源自我們最新的研究模型。這有助於它在編輯等任務上表現出色,包括在數學和代碼情境中。因為它不僅僅是從左到右生成,它可以在生成過程中非常快速地迭代解決方案並進行錯誤糾正。Gemini Diffusion 是一個最先進的實驗性文本擴散模型,它利用這種並行生成來實現極低的延遲。例如,我們今天發布的 Gemini Diffusion 版本比我們迄今為止最快的模型 2.0 Flash Lite 快五倍,同時保持其編碼性能。看看這個數學例子。準備好了嗎?開始!如果你眨眼了,你就錯過了。
[ 掌聲 ]
剛才我們加速了,但這次,我們要放慢一點。看到模型如何得出答案 39 的過程,這非常酷。這個模型目前正在一小部分人進行測試。我們將繼續研究不同的方法,降低所有 Gemini 模型的延遲,更快版本的 2.5 Flash Lite 即將推出。現在,關於 Gemini 的更多未來,請回到 Demis。
[ 掌聲 ] [ 音樂 ]
DeepThink 與世界模型
DEMIS HASSABIS: 謝謝 Tulsee。我們一直在忙於探索 Gemini 2.5 的思維能力前沿。正如我們從 AlphaGo 的經驗中了解到的,當我們給予這些模型更多的思考時間時,回應會有所改善。今天,我們正在通過引入一個我們稱之為 DeepThink 的新模式來讓 2.5 Pro 變得更好。它將模型性能推向極限,帶來開創性的成果。DeepThink 使用我們在思維和推理方面的最新尖端研究,包括並行技術。到目前為止,我們看到了令人難以置信的性能。它在 USAMO 2025 上取得了令人印象深刻的得分,這是目前最難的數學基準測試之一。它在 LiveCodeBench 上領先,這是一個衡量競賽級別編碼能力的困難基準測試。由於 Gemini 從一開始就是原生多模態的,它在衡量這一能力的關鍵基準測試 MM-MU 上表現出色也就不足為奇了。因為我們正在用 2.5 Pro DeepThink 定義前沿,我們正在花額外的時間進行更多前沿安全評估,並從安全專家那裡獲得進一步的反饋。作為其中的一部分,我們將通過 Gemini API 將其提供給信任測試人員,以便在廣泛可用之前獲得他們的反饋。今天稍晚,Josh 將向您介紹更多關於我們對 2.5 Pro DeepThink 的計劃。
在過去十年中,我們為現代 AI 時代奠定了許多基礎。從我們開創性地發明 Transformers 架構(如今所有大型語言模型都以此為基礎),到像 AlphaGo 和 AlphaZero 這樣的代理系統,我們繼續加倍投入基礎研究的廣度和深度,以發明實現通用人工智能所需的下一個重大突破。Gemini 已經是最好的多模態基礎模型,但我們正在努力擴展它,使其成為我們所謂的世界模型。這是一個可以通過模擬世界的某些方面來制定計劃和想像新體驗的模型,就像大腦一樣。這是我一直熱衷的事情,自從我在開發 Theme Park 等模擬遊戲的早期階段考慮虛擬世界以來。我們在這方面已經邁出了一步,通過我們開創性地訓練代理掌握 Go 和 StarCraft 等複雜遊戲,到最近我們的 Genie 2 模型,能夠僅從單個圖像提示生成您可以互動的 3D 模擬環境。您已經可以看到這些能力正在顯現,例如 Gemini 如何利用其世界知識和推理來表示自然事物。以及在 Veo,我們最先進的影片模型中,它對直觀物理學(如重力、光線和材料的行為方式)有著深刻的理解。令人難以置信的是,Veo 在各個影格中保持準確性和一致性。即使提示變得有點創意,比如這個由救生筏組成的人,它也知道該怎麼做。理解物理環境對於機器人技術也至關重要。AI 系統將需要世界模型才能在現實世界中有效運作。我們對一個專門的模型 Gemini Robotics 進行了微調,該模型教授機器人做有用的事情,比如抓取、遵循指令和即時調整新任務。今天在場的各位,可以在 AI Sandbox 中與機器人互動。
[ 掌聲 ]
將 Gemini 變成一個完整的世界模型是解鎖一種新型 AI 的關鍵步驟,這種 AI 在您的日常生活中有所幫助,聰明並理解您所處的情境,並且可以在任何裝置上代表您規劃和採取行動。這是我們對 Gemini 應用程式的最終願景,將其轉變為一個通用 AI 助理,一個個人化、主動且強大的 AI,也是我們邁向 AGI 的重要里程碑之一。這始於我們去年在 Project Astra 中首次探索的功能,例如影片理解、螢幕分享和記憶。在過去一年中,我們一直在將這些功能整合到 Gemini Live 中,以便更多人今天就能體驗。當然,我們繼續不斷改進並探索前沿領域的新創新。例如,我們通過本機音訊升級了語音輸出,使其更自然;我們改進了記憶;並添加了電腦控制。讓我們看看。
我正在使用 Project Astra 的最新研究原型。我們來看看它如何幫助我修理自行車。嘿,上網找找 Huffy 山地自行車的使用手冊。
我已經為你找到了一本使用手冊。你想了解什麼?
好的,酷。現在捲動直到找到關於剎車的部分。
好的。現在正在尋找那一頁。
我想我把這顆螺絲滑牙了。你能去 YouTube 找一個關於如何修理的影片嗎?
當然。我現在正在開啟 YouTube。這看起來是一個不錯的影片。
哦,太好了。謝謝。你能去我的電子郵件裡找自行車店的郵件,看看我需要哪個尺寸的六角螺帽嗎?
好的。根據 Bicycle Habitat 的電子郵件,你的齒盤需要一個 3/8 英寸的六角螺帽。我已經為你標出了正確的箱子。
看來我需要一個備用的張力螺絲。你能打電話給最近的自行車店看看他們有沒有庫存嗎?
好的。正在打電話給他們。我會盡快回復你他們有什麼庫存。
我想我的剎車片磨損了。你能再檢查一下手冊,看看有沒有提到它們?
根據手冊,如果你查看第 24 頁。
嘿!要不要一起吃午餐?
好啊。給我五分鐘。你能繼續說你剛才說的話嗎?
正如我剛才說的,如果你查看第 24 頁,第 2 部分,你會看到如何更換剎車片。
嘿,剛才那通電話有什麼最新消息嗎?
是的,我剛和自行車店通完電話。他們確認他們有你要的張力螺絲庫存。你想讓我下一個取貨訂單嗎?
你能給我看一些我可以放在自行車上的狗籃例子嗎?
好的,我可以幫你。請稍等。這裡有一些選項。我想 Zuka 放在這些籃子裡會很好看。
[ 掌聲 ]
用 AI 推進科學發現與無障礙應用
DEMIS HASSABIS: 一個通用的 AI 助理將為我們處理日常任務。它將負責我們繁瑣的行政工作,並提供令人愉悅的新建議,提高我們的生產力並豐富我們的生活。我們現在正在從信任測試人員那裡收集關於這些新功能的反饋,並努力將它們引入 Gemini Live、Search 中的新體驗、開發者使用的 Live API,以及像 Android XR 眼鏡這樣的新形態裝置。今天稍後您將聽到更多關於這方面的資訊。
我的整個職業生涯的核心一直是利用 AI 推進知識並加速科學發現。在 Google DeepMind,我們長期以來一直在幾乎所有科學領域應用 AI。僅在過去一年,我們就在從數學到生命科學的廣泛領域取得了巨大突破。我們構建了 AlphaProof,它可以解決數學奧林匹亞金牌級別的問題;Co-Scientist,它可以與研究人員合作,幫助他們開發和測試新的假設;我們剛剛發布了 AlphaEvolve,它可以發現新的科學知識,並加速 AI 訓練本身。在生命科學領域,我們構建了 AMIE,一個可以幫助臨床醫生進行醫療診斷的研究系統;AlphaFold 3,它可以預測所有生命分子結構和相互作用;以及 Isomorphic Labs,它基於我們的 AlphaFold 工作,利用 AI 徹底改變藥物發現過程,並有一天會幫助解決許多全球疾病。
在短短幾年內,AlphaFold 已經在科學界產生了巨大影響。它已成為生物學和醫學研究的標準工具,全球有超過 250 萬研究人員在他們的關鍵工作中使用了它。隨著我們繼續向 AGI 邁進,我始終相信,如果安全負責地進行,它有潛力加速科學發現,並成為有史以來最有益的技術。
退一步看,令人驚訝的是,就在幾年前,你們今天看到的這些前沿技術還會像魔法一樣。看到這些技術為 Search 和 Gemini 等產品帶來新的體驗,並共同幫助人們的日常生活,這令人興奮。例如,我們最近與 Aira 合作,這家公司通過視訊連接人工視覺翻譯人員,協助盲人和低視力群體導航世界。我們利用 Astra 技術構建了一個原型,以幫助更多人獲得這種類型的協助。我們正在不斷從用戶那裡收集反饋,同時 Aira 的翻譯人員正在積極監督安全性和可靠性。
[ 掌聲 ]
藉助這項工作以及我們所有開創性的工作,我們正在構建更個人化、更主動、更強大的 AI,豐富我們的生活,加速科學進步的步伐,並開啟一個發現與奇蹟的新黃金時代!
[ 音樂 ]
我記得小時候玩到天黑,確保即使看不見,我仍然可以彈吉他。我大概四歲時被診斷出患有色素性視網膜炎。我的視力正在積極惡化,但音樂一直是我的視覺世界在逐漸縮小時,我可以繼續做的事情。當我演奏音樂時,我感到自由。如果 Project Astra 能幫助我更獨立,那將是... 你知道,有史以來最偉大的事情。舉例來說,我喜歡巡迴演出,因為我可以出去到我從未去過的地方,結識新朋友,但這確實變得越來越困難了。您好。您好。當我掃描周圍環境時,您能告訴我您在這個綠色房間裡看到了什麼嗎?
我看到您面對的方向牆上有一塊牌子。牌子上寫著「Wi-Fi network. The Grey Eagle,密碼是 live music。」
非常感謝。您能幫我找到一個麥克風架嗎?
好的。我可以幫忙。您介意我開啟手電筒嗎?我看到一堵牆,上面有幾根捲起來的電纜,影片右上方看起來有麥克風架。
我能做的最有力的事就是站上舞台,拿起吉他,開始演奏。這有助於人們了解,不只是「盲或不盲」,「殘疾或能力」。如果 Project Astra 可以在這方面幫助我,我完全支持。
祝您演出愉快。
[ 音樂 ] [ 掌聲 ]
Google 搜尋的轉型
SUNDAR PICHAI: 謝謝 Demis。看到 Project Astra 在無障礙方面的潛力真是太棒了。這是 AI 如何推進我們永恆使命(組織世界資訊並使其普遍可及和有用)的另一個令人興奮的例子。沒有任何產品比 Google Search 更能體現我們的使命。這就是我們幾十年前開始投資 AI 的原因,也是我們如何在人類好奇心的規模上實現其益處的原因。我們的 Gemini 模型正幫助 Google Search 變得更加智能、代理化和個人化。一個很好的進展例子是我們的 AI Overviews。自去年 I/O 推出以來,它們已擴展到超過 200 個國家和地區,每月用戶超過 15 億。隨著人們使用 AI Overviews,我們看到他們對搜尋結果更滿意,並且更頻繁地進行搜尋。在我們最大的市場,如美國和印度,AI Overviews 正在推動顯示它們的查詢類型增長超過 10%。特別令人興奮的是,這種增長會隨著時間的推移而增加。這是 Search 在過去十年中最成功的推出之一。
[ 掌聲 ]
AI Overviews 也是 Google Lens 中視覺搜尋增長的最強驅動力之一。Lens 的視覺搜尋量今年已超過 1000 億次,同比增長了 65%。人們正在提出更多查詢。他們也正在提出更複雜的查詢。藉助我們最新的 Gemini 模型,我們的 AI Overviews 具有您對 Search 所期望的品質和準確性,並且是業界最快的。對於那些想要端到端 AI 搜尋體驗的人,我們正在引入全新的 AI Mode。這是對 Search 的徹底重新想像。藉助更進階的推理能力,您可以提出更長、更複雜的查詢,就像這樣。事實上,用戶一直在提出更長的查詢。是傳統搜尋長度的兩到三倍,而且您可以進一步提出追蹤問題。所有這些今天都可以在 Search 中作為一個新標籤頁使用。我一直在大量使用它,它徹底改變了我使用 Search 的方式,我很高興地分享,AI Mode 從今天開始向美國的每個人推出。
[ 掌聲 ]
AI Mode 是我們首先將前沿能力引入 Search 的地方,並且從本週開始,我們最智能的模型系列 Gemini 2.5 將引入 Search。為了分享更多內容,請 Liz 上台。
[ 音樂 ] [ 掌聲 ]
深入探討 AI 模式 (AI Mode)
LIZ REID: 謝謝 Sundar。在短短一年內,人們使用 Search 的方式發生了深刻轉變。多年來,人們來到 Google 提出這樣的問題。現在他們也在提出看起來更像這樣的問題。他們提出更長、更難的問題,正如你剛剛從 Sundar 那裡聽到的,也多了很多。他們正在體驗 AI 驅動的 Search 所能做到的。當我們將 Gemini 模型的先進能力與 Search 對 Web 和世界資訊無與倫比的理解結合起來時。今天,您將看到您可以提出任何問題。一個更智能、更具代理能力、更個人化的 Search 將處理您最棘手的問題,並幫助您完成任務。這就是 Google Search 的未來,一個超越資訊、邁向智慧的 Search。您已經開始看到這一點在 AI Overviews 中實現,而 AI Mode 將其提升到下一個層級。AI Mode 是以 Gemini 2.5 為核心轉型的 Search。它是我們最強大的 AI 搜尋,能夠處理任何問題。正如 Sundar 所宣布的,我們很高興從今天開始在美國向所有人推出 AI Mode!
[ 掌聲 ]
您會在 Search 中直接找到一個新標籤頁,或直接從搜尋列中找到它。AI Mode 將載入我們所有最好的 AI 功能和能力,但不僅如此;它是未來的一瞥。隨著時間的推移,我們將把 AI Mode 的許多尖端功能和能力直接整合到核心 Search 體驗中。這從今天開始,因為我們將為 AI Mode 提供動力的模型也應用於 AI Overviews,所以您可以直接將您最棘手的問題放入 Search 方塊中。今天,我們將帶您參觀 AI Mode。您將了解它是如何運作的,以及它如何變得更好。通過個人情境、更深入的研究、複雜的分析和視覺化、即時多模態以及新的購物方式。這有很多,因為 AI Mode 可以做很多事情,所以讓我們深入了解。
AI 模式中的個人情境
首先,有了 AI Mode,您可以提出心中想到的任何問題。正如您在這裡看到的,Search 開始工作了。它生成您的回應,為您整合所有內容,包括您可能沒有發現的內容和創作者的連結,以及提供實用資訊(如評級)的商家和企業。Search 使用 AI 動態調整整個使用者介面,包括文字、圖像、連結,甚至這張地圖,只為您的問題而設計。而且您可以以對話方式進行追蹤。AI Mode 不僅僅提供資訊;它為 Search 帶來了全新的智慧水平。之所以能實現這一點,是我們稱之為「查詢展開」(query fan-out) 技術。在底層,Search 會識別何時一個問題需要進階推理。它會呼叫我們自定義版本的 Gemini,將問題分解為不同的子主題,並代表您同時發出多個查詢。它會在整個網路上進行搜尋,比傳統搜尋更深入。並且它利用我們所有的即時資訊資料集,如 Knowledge Graph、Shopping Graph,以及在此案例中,本地資料,包括來自我們 Maps 社區 5 億多貢獻者的見解。Search 會整合回應並檢查其工作,以確保其達到我們高標準的資訊品質。如果它檢測到任何不足,它會發出更多搜尋來填補。這意味著使用 AI Mode,您只需一次搜尋就能獲得所有這些資訊,而且速度更快。
現在,讓我們看看即將在 Labs 中推出的 AI Mode。很快,AI Mode 將能夠根據您過去的搜尋,提供個人化建議,使您的回應更加有用。您還可以選擇連接其他 Google 應用程式,從 Gmail 開始。我們稱之為「個人情境」,當 AI Mode 利用您的個人情境提供幫助時,您會看到提示。現在,根據您最近的餐廳預訂和搜尋,它了解到您偏好戶外座位。而且由於您訂閱了畫廊電子報,它會建議一些您在城裡時可以參觀的很酷的藝術展覽。這還不是全部。由於您的航班和酒店確認資訊在您的收件匣中,您可以獲得與您實際在 Nashville 時同步的活動建議,許多活動都在您入住的地方附近。您可以看到 AI Mode 中的個人情境如何讓 Search 真正屬於您,並提供專為您定制的建議。這始終在您的控制下,您可以隨時選擇連接或斷開連接。個人情境將於今年夏天在 AI Mode 中推出。
[ 掌聲 ]
深度搜尋 (Deep Search)
接下來,對於您想要更全面回應的問題,我們將深度研究能力引入 AI Mode。您今天已經會來到 Search 深入探討一個主題,但這將其帶到了更深的層次。以至於我們稱之為 Deep Search。Deep Search 使用您剛才聽到的相同查詢展開技術,但倍增了。它可以代表您發出數十甚至數百個搜尋。它會對所有這些零散的資訊進行推理,在短短幾分鐘內創建一份專家級別、完全引用的報告。它在整個報告中包含網頁連結,因此您可以輕鬆探索和採取行動。這是我們構建 AI Mode 的核心部分,也是我們一直以來思考 Search 中 AI 的方式,因為我們相信 AI 將成為 Web 有史以來最強大的發現引擎,幫助人們發現更多 Web 所提供的內容,並找到令人難以置信的、高度相關的內容。
介紹 Rajan Patel
您已經開始看到 Search 如何變得更加智能,我們還有更多要向您展示。所以現在交給 Rajan,他將分享 AI Mode 如何幫助他分析他熱衷的複雜數據——體育。
[ 掌聲 ] [ 音樂 ]
AI 模式中的複雜分析與代理任務
RAJAN PATEL: 謝謝 Liz!好的。我是一個狂熱的棒球迷,最近關於新型魚雷棒的討論很多。如果你不關注棒球,這是一種新的球棒設計,球棒的更多重量集中在甜蜜點。正如你所看到的,我一直在深入研究它是否對比賽產生了真正的影響。現在,我想知道數據是怎麼說的。所以我會問:顯示本賽季和上賽季使用魚雷棒的知名球員的打擊率和上壘率。想想看。那個問題包含這麼多部分!Search 需要了解誰是知名球員,哪些球員正在使用魚雷棒,以及他們的數據。我得到了這個有幫助的回應,包括這個易於閱讀的表格。而且我知道這是最新的、準確的,因為它使用的是我們不斷更新的體育數據,精確到最後一次擊球。Search 甚至提供了重要的情境,例如賽季還早。我可以繼續問:這些球員本賽季打了多少支全壘打?就這樣,我得到了這張圖表。這又回到了 Liz 提到的,AI Mode 動態地為每個回應生成正確的使用者介面。Search 判斷展示這些資訊的最佳方式是圖表,並創建了它。這就像在 Search 中擁有我自己的體育分析師一樣!複雜的分析和數據視覺化將於今年夏天提供給體育和金融相關問題。
[ 掌聲 ]
好了,關於棒球的這些討論,讓我更想親近比賽。比如,下次比賽時坐在更近的位置,但找到完美的門票可能會很麻煩。所以我很高興地分享,我們正在將 Project Mariner 的代理能力引入 AI Mode。您已經看到了 AI Mode 如何變得更加智能和個人化,這裡您開始看到 Search 變得更具代理能力。Search 可以在我的控制下為我完成一些工作。我會說:為這個週六的 Reds 比賽找到兩張底層便宜的門票。Search 會啟動查詢展開,跨多個網站分析數百種潛在的門票選項,並完成填寫表格的所有繁瑣工作,填入我要求的所有條件。然後它會整合所有資訊,對結果進行推理,分析即時價格和庫存。就在這裡,任務完成!我獲得了很棒的門票選項,並提供了有用的情境,這樣我就可以做出明智的決定。看來這些座位視角不錯,而且價格合理!Search 幫助我跳過了許多步驟,直接將我連結到完成結帳。門票搞定!
[ 掌聲 ]
Search 很快就能幫助您完成這樣的任務,從賽事門票、餐廳預訂,到本地服務預約。
多模態與即時搜尋 (Search Live)
接下來,我們來談談多模態。早在多模態搜尋還沒真正成為一回事之前,我們就已經在這條路上開創了先河。我們早在 2017 年就在這個舞台上推出了 Google Lens。從那時起,我們讓搜尋您看到的內容變得更容易。用 Google Lens 拍張照片,或者只是圈選搜尋,您就可以立即獲得 AI Overview。就像 Sundar 提到的,視覺搜尋正火熱進行中,今天,我很高興地分享,Lens 每月用戶超過 15 億。現在,我們正在通過將 Project Astra 的即時能力引入 AI Mode,在多模態領域邁出下一個重要一步。想想所有那些只需通過語音溝通並實際展示您所指內容就能變得簡單得多的問題,比如家庭維修、棘手的學校作業,或者學習新技能。我們稱之為 Search Live,現在,使用您的攝影機,Search 可以看到您所看到的,並在您與之互動時即時為您提供有用的資訊。這就像與 Search 進行視訊通話!我有三個孩子,他們一分鐘問大約一百萬個問題。隨著暑假的臨近,團隊和我決定對 Search Live 進行終極考驗:幫助我們和我們的孩子嘗試一些新的東西。我們就在剛剛過去的這個週末與家人在家裡錄製了這段影片,讓我們看看。
看來您準備做一個有趣的科學實驗。
好的。Anya,準備好了嗎?Adi,準備好了嗎?
你們準備好進行科學實驗了嗎?
是的。你們能猜出我正在嘗試做什麼實驗嗎?我有雙氧水、洗碗精和酵母。
您很可能要做大象牙膏。
我怎麼知道這些草莓哪個可以吃了?
我正在嘗試讓這個遙控器工作。
打氣到大約每平方英寸 50 磅,但不要超過 90 磅。
我已經混合了小蘇打。接下來我該怎麼做?
看起來有人嘗試把手指浸到肉桂水中。
您可以嘗試使用不同的催化劑。碘化鉀是個不錯的選擇。
哇,它為什麼會這樣?
成熟的草莓也會有甜味。頂部的綠葉應該看起來新鮮而有活力。
化學反應進行得很順利。
這太棒了,謝謝。哇!我們能再來一次嗎?開始!
哦天。我怎麼把草莓漬從襯衫上去掉?
試試用一湯匙白醋的混合物。
[ 音樂 ]
使用 AI 模式購物
VIDHYA SRINIVASAN: 通過 AI Mode,我們正在為您提供更高水平的智能,以幫助您在 Google 上購物。正如您之前聽到的,AI Mode 會從網絡和我們的實時數據中提取信息。在這個案例中,這意味著您將獲得 Google Images 的視覺靈感以及我們 Shopping Graph 中世界上最全面的產品和零售商集合,其中包含超過 500 億個不斷更新的產品列表。讓我向您展示這是如何整合在一起的。我一直在尋找一塊新的客廳地毯。我會說:我有一個淺灰色的沙發,正在尋找一塊能讓房間變得明亮的地毯。我首先需要的是視覺靈感。Search 會動態生成一個可瀏覽的圖像和可購物產品的馬賽克,專為我個人化。我看到我喜歡的一些品牌的地毯,以及更多現代的選項,因為我經常搜尋這種類型的東西。這些都不錯,但我知道它們中的大多數在我家裡一天都撐不下去!所以我會補充:我有 4 個活潑的孩子,他們喜歡邀請朋友過來玩。Search 明白這意味著會有很多髒亂!它推薦了一款低絨或可水洗的地毯,採用耐用材料製成,同時也提供了一些我可以購買的產品。但我對地毯不太了解,所以幸運的是 Search 指出了一些需要考慮的事項,並提供了這些有用的後續問題。這將原本需要數天的研究時間縮短到只需幾分鐘。您可以想像,這種新的 AI Mode 體驗對於您的所有購物需求會有多麼有用。說到這裡,我想要幾件新的夏日連衣裙。Search 提供了我一些不錯的選擇,但現在,我面臨著經典的線上購物困境。我不知道這些款式穿在我身上會是什麼樣子。因此,我們引入了一項新的試穿功能,可以幫助您虛擬試穿衣服,讓您感受這些款式穿在您身上會是什麼樣子。讓我向您展示一個實時演示。我看了很多連衣裙,我很喜歡這件藍色的。我點擊「試穿」這個按鈕。它會要求我上傳一張照片。我去我的相機膠卷,我有很多照片在這裡,我選擇一張全身照,並且我的身體是清晰可見的。它開始處理了。在它處理的同時,我會向您展示幕後發生的事情。要創建一個能夠大規模運行的試穿體驗,我們需要對人體以及衣服穿在人體上的樣子有深入的理解。為此,我們構建了一個自定義的圖像生成模型,專門針對時尚進行訓練。哇,回來了!
[ 掌聲 ]
我得說,當實時演示成功時,我非常喜歡。好的。關於它是如何運作的更多資訊。它整合了 3D 形狀理解,幫助我們更好地視覺化人體。我們的試穿體驗使用您的照片,而不是預先拍攝的圖像或模型,這些圖像或模型看起來不像您。然後,當涉及到您感興趣的衣服時,AI 模型能夠向您展示材料如何在人體上折疊、拉伸和垂墜。這項技術是業界目前大規模最先進的。它允許我們視覺化數十億件服裝產品在各種各樣的人身上的樣子。您可以看到它確實讓我感受到這件連衣裙穿在我身上會是什麼樣子。好的。所以我現在決定要這件連衣裙了。Search 可以找到我想要的價格,並使用我們新的代理結帳功能為我購買。讓我回到這裡的連衣裙。我要點擊這個東西來追蹤價格。我選了我的尺寸。然後我設定一個目標價格,50 美元。追蹤正在進行中。Search 現在將持續檢查可以買到這件連衣裙的網站,並在價格下降時通知我。現在,讓我們退出實時演示模式,並加入一些 I/O 魔法,假設價格已經下降了。當這種情況發生時,我會收到這樣的通知。如果我想購買,我的結帳代理會將正確的尺寸和顏色添加到我的購物車中。我可以選擇查看所有我的支付和運送資訊,或者讓代理直接為我購買。
[ 掌聲 ]
只需輕輕一點,Search 就可以通過 Google Pay 安全地為我購買。當然,這一切都在我的指導下發生。從靈感到購買,我們新的智能功能將最好的購物體驗與最好的 AI 整合在一起,就在 Search 中。我們新的視覺購物和代理結帳功能將在未來幾個月推出,您可以從今天開始在 Labs 中嘗試試穿。
[ 掌聲 ]
現在,回到 Liz!
[ 音樂 ] [ 掌聲 ]
AI 模式總結
LIZ REID: 謝謝 Vidhya!正如 Sundar 所說,所有這些都將在本週晚些時候得到更大的升級,屆時我們將為 AI Overviews 和 AI Mode 帶來客製化版本的 Gemini 2.5。這是 Google Search 的下一個前沿,AI Overviews 將 AI 的實用性帶給核心 Search 體驗中的每個人。正如您今天看到的,AI Mode 是一個全新的、經過重新設計的 AI Search,擁有我們所有最先進的 AI 功能和能力。我們對 Google Search 的這個新篇章感到無比興奮,在這裡您可以真正提出任何問題,我們是說任何問題。您最簡單和最困難的問題,您最深入的研究,您個人化的購物需求,以及那些「幫我搞定」的任務。您所要做的就是問。
[ 音樂 ] [ 掌聲 ] [ 音樂 ]
我還應該做些什麼來讓它更堅固?
要讓它更堅固,考慮在設計中加入更多三角形。
[ 音樂 ] [ 掌聲 ]
Gemini 應用程式中的通用 AI 助理
JOSH WOODWARD: 多年來,人們一直致力於構建一個不僅僅回應,而是理解的 AI 助理;一個不僅僅等待,而是預測的助理;一個真正賦予您力量的通用助理。今天,我們正在朝著那個未來邁出新的一步,並且我們正在利用 Gemini 應用程式來實現它。我們的目標是讓 Gemini 成為最個人化、最主動、最強大的 AI 助理。這始於個人化。如果您的 AI 助理真正屬於您呢?真正屬於您。一個了解您、您的偏好、您的專案、您的世界的助理,而且您始終處於主導地位。並且,在您允許的情況下,您可以與它分享您相關的 Google 資訊,讓它成為您的延伸。我們稱之為個人情境 (Personal Context)。我們已經讓您可以將您的搜尋記錄與 Gemini 連接,這樣它就可以理解您過去搜尋過食譜,並制定這樣的回應。很快,您還可以從 Google 的其他應用程式中添加更多個人情境,這樣 Gemini 將會獨特地有幫助。您可以選擇開啟此功能,並且您將始終控制體驗。您可以查看和管理此資訊,以及連接或斷開您的 Google Apps。這種個人化程度為您提供了一個更主動的 AI 助理,這改變了很多。
看,現在大多數 AI 都是被動的:您問,它答。如果它能預見未來,並在您提出問題之前就幫助您準備呢?想像您是一名學生。您的物理考試即將來臨。Gemini 不會讓您手忙腳亂,它會在考試前一週在您的日曆上看到它,但它不僅僅是提醒您;它會根據您的材料、您教授的筆記、甚至是照片和手寫筆記,為您提供個人化的測驗。這不僅僅是有幫助;這將感覺像是魔法。再進一步想像,Gemini 可以根據您的興趣製作定製的解說影片,以便您更好地理解一個主題。在這個案例中,Gemini 知道我喜歡騎自行車,所以它會用一個我能理解的類比來向我解釋熱力學的概念。這就是我們 Gemini 的發展方向,這一切都得益於底層模型的強大能力。上個月,我們在 Gemini 應用程式中發布了我們最新的 2.5 Pro 模型,這不僅僅是一次升級;這是一次飛躍。人們正在應用程式中做非凡的事情。他們不僅僅是在 vibe coding;他們在幾分鐘內發明了整個遊戲,並製作了功能齊全的網站。他們正在將事物思考成現實。而且第一次寫軟體或者使用我們的 Veo 模型生成和編輯圖像也很有趣。這對每個人來說都是一種新的超能力。
所以這三個 P——個人化、主動性、強大——這些是 AI 助理的前沿領域,多虧了 2.5 Pro,我們在這三個方面都取得了巨大進展。所以讓我們更詳細地談談所有這些如何在 Gemini 應用程式中實現。今天我們將推出五項功能。首先,讓我們談談 Gemini Live。人們對它的互動性和對話的自然程度感到驚訝。它在超過 150 個國家支持超過 45 種語言。而且它非常直觀、非常吸引人,以至於對話比應用程式中的文字對話長五倍。我可以從個人經驗告訴你,早上上班開車時與之交流非常棒。正如 Sundar 所說,Gemini Live 現在包含了攝影機和螢幕分享功能,這兩者都非常棒。它今天在 Android 和 iOS 上的 Gemini 應用程式中免費提供。
[ 掌聲 ]
在接下來的幾週內,您將能夠將 Gemini Live 連接到一些您喜歡的應用程式,例如 Calendar、Maps、Keep 和 Tasks。所以很快,您只需將攝影機對準邀請並要求它將其添加到您的日曆中,它就會完成。或者如果您需要辨認室友的購物清單,Gemini Live 會將那些塗鴉轉換為 Google Keep 中整潔的清單。我們的 Gemini Live 路線圖上滿載著在 Project Astra 中原型化的新想法,就像您之前看到的,隨著這些想法成熟,我們將它們逐漸引入 Gemini Live,供所有人使用。由於 Gemini 與 Android 緊密合作,許多這些體驗在整個 Android 生態系統中運作良好。所以敬請期待更多內容!
Gemini Live 與深度研究
即時互動非常棒,但有時您需要深入探討、解開複雜的問題。這就是 Deep Research 的作用所在。從今天開始,Deep Research 現在允許您上傳自己的文件來指導 Research Agent,這是最受歡迎的功能之一。很快,我們還會讓您在 Google Drive 和 Gmail 中進行研究,這樣您也可以輕鬆地從那裡提取資訊。假設您有一份令人難以置信的詳細報告。在這個案例中,是關於彗星在太空中移動的科學。彗星在太空中移動。您如何將這種精彩內容濃縮成易於理解、引人入勝、可以分享的東西呢?這就是 Canvas 的作用所在,它是 Gemini 的共同創作空間。Canvas 現在允許您一鍵將該報告轉換為各種新東西,例如動態網頁或資訊圖表、有用的測驗,甚至是支持 45 種語言的播客。但是,如果您想更進一步,您可以在 Canvas 中 vibe code 各種令人驚嘆的東西,與 Gemini 進行盡可能多的互動,以創建您正在尋找的體驗。看看我們的一位 Googler 僅僅通過描述他們想構建什麼以及與 Gemini 協作以使其恰到好處而製作的這個互動式彗星模擬。現在您可以分享這樣的應用程式,以便其他人可以加入並修改和重新混合。這就是轉化任何事物的力量,這是一種使用 Gemini 的全新方式。
Canvas 與 Chrome 中的 Gemini
今天,您也可以使用 Gemini 的另一種新方式。我們將 Gemini 引入 Chrome。這將是您在桌面上瀏覽網頁時的 AI 助理。使用它最令人驚訝的部分在於,它可以自動理解您正在瀏覽的頁面的情境,所以如果您有疑問,就可以得到解答。我特別喜歡它用於比較長頁面上的評論,例如這個露營網站。我們從本週開始向美國的 Gemini 訂閱用戶推出 Chrome 中的 Gemini。
[ 掌聲 ]
好了。我們已經做了一些測驗,與 Gemini Live 交流過,我們學到了關於彗星和露營地的事情。現在是時候創造一些東西了。這從今天開始,我們正在將我們最新、最有能力的圖像生成模型引入 Gemini 應用程式。它叫做 Imagen 4,這是一個巨大的進步。
[ 掌聲 ]
圖像更豐富,顏色更細膩,細節更精緻。不同鏡頭中的陰影,照片中穿透的水滴。我在這些模型周圍花了很多時間,我可以說這個模型和它的進步已經從好變成了偉大,再變成了令人驚嘆。而且 Imagen 4 在處理文字和排版方面表現得好得多。過去,你可能創建了一些看起來不錯的東西,但添加文字總是不太對勁。所以看看這個。也許我想為一個音樂節製作一張海報。讓 Chrome Dino 成為主要頭條。Imagen 4 不僅能正確地處理文字和拼寫;它實際上還做出了創意選擇,比如在字體中使用恐龍骨頭,或者找出間距、字體大小、佈局,使其看起來像這張很棒的海報。圖像品質更高,速度更快,文字更好。所有這些都讓你可以製作海報、派對邀請函或任何其他東西。而且藉助 Gemini 的原生圖像生成功能,你可以直接在應用程式中輕鬆編輯圖像!我們還製作了一個 Imagen 4 的超快速變體。我們迫不及待地想讓你們體驗它。事實上,它比我們之前的模型快 10 倍,所以你可以快速迭代很多想法。
Imagen 4 與 Veo 3:生成式媒體
好了,我想向你們展示最後一件事。圖像很驚人,但有時,你需要動態和聲音來講述完整的故事。去年 12 月,Veo 2 問世,重新定義了業界的影片生成。如果你昨天看到了 Demis 的煎洋蔥帖子,你就知道我們還在烹飪別的東西。今天,我很高興地宣布我們全新的最先進模型 Veo 3。
[ 掌聲 ]
就像你們今天在台上聽到的許多其他事物一樣,它今天已經可用了。
[ 掌聲 ]
影片的視覺品質甚至更好。它對物理學的理解更強。這裡是一個飛躍性的進步。Veo 3 具備原生音訊生成能力。
[ 掌聲 ]
這意味著 Veo 3 可以生成音效、背景聲音和對話。現在你給它提示,你的人物就可以說話了。這裡有一隻智慧的老貓頭鷹和一隻緊張的年輕獾在森林裡。聽聽看。
[ 音樂 ]
他們今天留下了一個球。它彈得比我能跳得還高。
這是什麼魔法?
[ 掌聲 ]
JOSH WOODWARD: 很酷,對吧?Veo 不僅添加了森林的聲音,還有對話。我們真正進入了一個創作的新時代,結合了令人難以置信的逼真的音訊和影片創作。品質如此之好,感覺就像你就在那裡,和這個人一起在船上。
這片海洋,它是力量,一種狂野不羈的力量,她用每一個破曉的光芒指揮著你的敬畏。
[ 掌聲 ]
JOSH WOODWARD: 這種照片般的生成、情感、海的運動,令人難以置信的是 Veo 作為一個令人難以置信的創意工具持續不斷地快速發展。我們一直與電影業密切合作,想像可能的事情並做到這一點,稍後你們將聽到更多。
介紹 Jason Baldridge
這就是 Gemini 周圍發生的事情。從今天開始,Gemini 的即時功能將在 Android 和 iOS 上免費推出。Deep Research 和 Canvas 將迎來迄今為止最大的更新。一個用於多步驟操作的新代理模式即將推出,你們之前聽到了。我們將推出 Chrome 中的 Gemini 來幫助您導航網頁。並且您可以使用新的 Imagen 4 和 Veo 3 模型創建帶有聲音的令人驚嘆的圖像和影片。所有這些都將在 Gemini 應用程式中整合在一起,因為我們努力提供最個人化、最主動、最強大的 AI 助理。現在,為了更詳細地介紹我們的生成模型如何釋放創意表達,請 Jason 上台。
[ 掌聲 ] [ 音樂 ]
生成式媒體與創意合作
JASON BALDRIDGE: 謝謝 Josh。無論您是創作者、音樂家還是電影製作人,生成式媒體都在擴展創意的疆界。自始至終與藝術社群密切合作,我們不斷打造賦予其創意過程力量的技術。例如,我們與音樂家合作開發了 Music AI Sandbox。這是一個供專業人士在其工作中探索我們生成音樂模型 Lyria 潛力的工具。讓我們看看葛萊美獎傳奇歌手兼作曲家 Shankar Mahadevan 如何運用 Music AI Sandbox 和 Lyria 的片段。
我是 Shankar Mahadevan,我是一位音樂作曲家、歌手、製作人,也是一個快樂的人。
[ 音樂 ]
與 Sandbox 合作非常棒。我們輸入了我們的需求,它給了我們一個基礎。我們使用了那個基礎,並創作了這首歌。對於音樂家來說,這是一個如此鼓舞人心的工具。你打開一扇門,然後你看到,嘿,那裡還有一個房間,然後你再打開一扇門,你看到那裡還有一個房間。所以這就是 AI 的作用。
[ 音樂 ] [ 掌聲 ]
JASON BALDRIDGE: 太棒了。我們最近發布了 Lyria 2,它可以生成高保真音樂和專業級音訊。音樂旋律優美,包含人聲,無論是獨唱還是合唱。正如您所聽到的,它製作出富有表現力且豐富的音樂。
[ 音樂 ] [ 掌聲 ]
Lyria 2 今天已向企業、YouTube 創作者和音樂家提供。這種對協作的重視不僅體現在我們構建的內容上,也體現在我們構建的方式上。目前,人們或組織不容易檢測到 AI 生成的圖像。隨著技術的改進以及音樂、音訊、圖像和影片變得更加逼真,這一點只會變得更加明顯。因此,我們將繼續在這一領域進行創新。兩年前,我們率先推出了 SynthID,它可以在生成的媒體中嵌入不可見的水印。迄今為止,已有超過 100 億件內容被加水印。我們還擴大合作夥伴關係,確保更多內容使用 SynthID 加水印,並讓更多組織也能夠檢測到它。最後,我們也正在讓檢測水印變得更容易。我們新的 SynthID Detector 可以識別圖像、音軌、文字或影片中是否包含 SynthID,無論是在整個內容中還是只是一部分。我們從今天開始向早期測試人員推出這項功能。
[ 掌聲 ]
我們的協作努力也幫助我們探索 Veo 作為一個電影製作工具。最近,我們與富有遠見的導演 Darren Aronofsky 及其新的故事創作公司「Primordial Soup」合作,共同塑造 Veo 的能力,以滿足故事講述者的需求,讓藝術家掌握創新的主導權。我們正在共同將世界上最好的影片生成模型交到頂級電影製作人手中,以推動技術作為工具在更具創意和情感的故事講述方面突破界限。這次合作的三部短片中的第一部是導演 Eliza McNitt 的「ANCESTRA」。讓我們來看一下。
DARREN ARONOFSKY: 電影一直是一種深刻的人類行為,將人們與彼此的故事連接起來,它有能力將我們從自己的體驗中抽離出來,帶我們踏上另一段旅程。我不認為這一點會改變。
ELIZA MCNITT: 這是一個跨越整個宇宙歷史的故事。但它實際上是關於一位母親,以及當她的孩子出生時心臟有一個洞時發生的事情。我們拍攝了充滿情感的表演,然後生成了我們無論如何也無法捕捉到的影片。我希望嬰兒能握著母親的手指。
DARREN: 她們兩人的那份喜悅。
ELIZA McNITT: Veo 是一個生成式影片模型,但對我來說,它是另一個視角,通過它我可以想像我周圍的宇宙。
DARREN: 看到這些模型的優勢、模型的局限性,並試圖將它們塑造成故事講述工具,這非常有趣。
ELIZA McNITT: 老實說,我從沒想過要講述我出生那天的故事,但我們在這裡。
這本來應該是例行檢查。
緊急剖腹產。
嬰兒情況危急。這裡需要幫助!我們需要走了。
我的寶寶會沒事嗎?
我們會盡一切努力。
我會沒事嗎?
旁白: 對於每一個在你之前存在的生物,來自每一個為了你的開始而死去的恆星。
[ 音樂 ] [ 掌聲 ]
JASON BALDRIDGE: 令人難以置信的作品!
[ 掌聲 ]
Eliza 將真人表演與 Veo 生成的影片結合,例如微觀世界、宇宙事件以及她自己新生兒的影像。這種方法開啟了全新的故事講述可能性,賦予 Eliza 將電影般的規模和情感帶入一個深刻個人化的故事。這次合作也幫助塑造了 Veo 的能力,以滿足像 Eliza 這樣的說故事者的需求。我們為電影製作人構建了新功能,因此當您製作影片時,它將使用您提供的素材:人物、場景或風格,並保持它們的一致性。或者您可以指導 Veo,給予其精確的攝影機指令,讓它沿著特定路徑拍攝。這些功能幫助電影製作人流暢地通過 Veo 表達他們的想法。然後我們更進一步。為了向您介紹更多內容,讓我們請 Josh 回來。差不多了。
[ 音樂 ] [ 掌聲 ]
Flow:AI 電影製作工具
JOSH WOODWARD: 謝謝 Jason。與創意社群合作完成,我們一直在為創作者構建一個新的 AI 電影製作工具,它結合了 Veo、Imagen 和 Gemini 的優勢,一個專為創作者打造的工具。它的靈感來自於當您沉浸在創意區域,時間彷彿放慢時那種神奇的感覺。我們稱之為 Flow,它將於今天推出。讓我向您展示它是如何運作的。
[ 掌聲 ]
讓我們進入我正在處理的專案。我們的英雄,爺爺,正在與一隻有羽毛的朋友一起建造一輛飛行汽車。這是我的素材:老人和他的車。我們讓您輕鬆地將自己的圖像上傳到工具中,或者您可以使用內建的 Imagen 即時生成它們。我們可以僅僅通過描述它來創建一個令人驚嘆的黃金排檔。接下來,我們可以開始將所有這些片段組合在一起。只需一個提示,您就可以描述您想要的內容,包括非常精確的攝影機控制。Flow 會將所有內容定位好。我可以在場景構建器中繼續迭代。這就是真正令人興奮的地方。如果我想拍攝場景的下一個鏡頭,我只需點擊加號圖標創建下一個鏡頭。我也可以描述接下來我想發生的事情,例如在後座添加一隻 10 英尺高的雞,而 Flow 會完成其餘的工作。人物一致性、場景一致性,它就是能做到。如果有些地方不對,沒問題。您可以像使用任何其他影片工具一樣返回去修剪它,如果它不適合您的需求。但 Flow 也可以反向工作。它也允許我延長一個片段,這樣我就可以獲得我一直在努力實現的完美結尾。一旦我擁有了我需要的所有片段,我就下載這些檔案。我可以將它們導入我喜歡的編輯軟體,並從 Lyria 中添加音樂。現在,老人終於擁有了他的飛行汽車。
[ 音樂 ]
JOSH WOODWARD: 非常棒。我想讓您聽聽幾位一直在使用 Flow 的 AI 電影製作人對使用它的感受,以及他們如何讓它變得更好。讓我們一起看看。
我不知道我是否走在正確的道路上,但我正在努力尋找它。我正在質疑、尋找,然後有些東西改變了,我不再努力了,我只是在做。所有的碎片開始到位。
[ 音樂 ]
所有事情在我腦海裡都非常清晰。我看到了這些像閃光一樣的可能性,幾乎就像我在穿越維度一樣。
我正在俯瞰我自己和我的角色在這些不同的世界中,它幾乎是自己活過來的,儘管我知道我控制著敘事。它感覺就像它在某個時刻是建立在自身之上的。你知道,你的故事可以有無數個結局。
所以作品不是一磚一瓦地建造出來的。它像自發的花園一樣盛開。它自然地生長,充滿活力且完整。
我沒有強迫它。我只是找到了它。那時我就知道我在正確的地方了。
[ 音樂 ]
Google AI 訂閱方案
JOSH WOODWARD: 聽到這些電影製作人談論如何將他們令人難以置信的願景化為現實,真是太棒了。那種建造和創造的感覺,這正是我們今天想要交到您手中的。因此,我很高興地分享,我們正在升級兩個 AI 訂閱計劃。我們將推出 Google AI Pro 和 Google AI Ultra。通過 Pro 計劃,它將在全球範圍內提供,您將獲得一套完整的 AI 產品,與免費版本相比,具有更高的速率限制和特殊功能。這包括之前稱為 Gemini Advanced 的 Gemini 應用程式的 Pro 版本。然後還有 Ultra 計劃。這是為那些開拓者、先驅者準備的,那些想要 Google 尖端 AI 的您。這個計劃具有最高的速率限制,最早地獲得 Google 各項新功能和產品的權限。它今天已在美國推出,我們很快就會在全球範圍內推出。您可以將這個 Ultra 計劃視為您的 Google AI VIP 通行證。因此,如果您是 Ultra 訂閱用戶,您將獲得巨大的速率限制,並在準備好時,可以存取 Gemini 應用程式中的 2.5 Pro Deep Think 模式。您還將率先體驗 Flow,並且今天就可以使用 Veo 3。它還包含 YouTube Premium 和大量的儲存空間。我們迫不及待想看到您使用這些新的 Google AI 計劃建造、創造和發現什麼令人驚嘆的事物。
介紹 Shahram Izadi
現在,為了更詳細地介紹 AI 如何與物理世界互動,請 Shahram 上台。
[ 音樂 ] [ 掌聲 ]
Android XR 願景
SHAHRAM IZADI: 大家好。現在 Android 上正在發生許多令人興奮的事情。它是您第一個看到未來的地方。就在上週的 Android Show 上,我們發布了大胆的新設計以及 Android 16 和 Wear OS 6 的重大更新。當然,Android 是體驗 AI 的最佳平台。您今天看到的許多 Gemini 突破都將很快登陸 Android。您已經可以通過電源按鈕立即訪問 Gemini。它了解您的情境並隨時準備提供幫助。但 Android 不僅僅為您的手機提供支持;它是一個完整的設備生態系統。在未來幾個月,我們將把 Gemini 引入您的手錶、汽車儀表板,甚至您的電視,這樣無論您身在何處,都有一個有用的 AI 助理讓您的生活更輕鬆。
但是對於那些可以讓您以新方式體驗 AI 助理的新興形態呢?這正是我們構建 Android XR 的原因。
[ 掌聲 ]
它是 Gemini 時代第一個構建的 Android 平台,並且它支持從頭戴裝置到眼鏡以及介於兩者之間的所有各種裝置。我們相信 XR 沒有一體適用的解決方案,您會在一天中使用不同的裝置。例如,看電影、玩遊戲或工作時,您會想要一個沉浸式頭戴裝置。但在旅途中,您會想要輕便的眼鏡,可以在不拿出手機的情況下為您提供及時資訊。我們與 Samsung 團隊合作共同構建了 Android XR,並針對 Qualcomm 的 Snapdragon 進行了優化。自去年發布 Android XR 開發者預覽版以來,數百名開發者正在為該平台進行開發。我們還為 XR 重新設計了您喜歡的 Google 應用程式。畢竟這是 Android,所以您的行動裝置和平板電腦應用程式也能正常運作。
頭戴裝置上的 Gemini
今天,我想分享 Gemini 如何改變您體驗頭戴裝置和眼鏡的方式。在這些裝置上,您的 AI 助理能以更豐富的方式理解您的情境和意圖,從而在一天中為您提供幫助。讓我們從頭戴裝置上的 Gemini 開始。這是 Samsung 的 Project Moohan,第一款 Android XR 裝置。
[ 掌聲 ]
Moohan 為您提供了無限的螢幕空間,您可以透過 Gemini 在旁探索應用程式。在 XR 中的 Google Maps 中,您只需向 Gemini 發出指令,即可瞬間傳送到世界任何地方。您可以與您的 AI 助理討論您看到的任何事物,並讓它提取關於您正在探索內容的影片和網站。我們很多人都夢想著坐在前排觀看我們最喜歡的球隊比賽。想像一下,在 MLB 應用程式中觀看他們比賽,就像您身臨其境一樣,同時與 Gemini 聊天關於球員和比賽數據。Samsung 的 Project Moohan 將於今年稍晚推出購買。我們迫不及待地想讓您親自體驗。
Android XR 眼鏡
現在,讓我們把注意力轉向眼鏡。正如您所知,我們研究眼鏡已有十多年了,而且從未停止過。Android XR 眼鏡輕便,設計用於全天候佩戴,即使它們 packed with 技術。攝影機和麥克風賦予 Gemini 觀看和聽取世界的能力;揚聲器讓您可以聽 AI 的聲音、播放音樂或接聽電話。可選的鏡片內顯示屏可以私密地在您需要時顯示有用的資訊。這些眼鏡與您的手機配合使用,讓您可以使用應用程式,同時保持雙手自由。所有這一切使得眼鏡成為 AI 的自然形態,將 Gemini 的力量直接帶到您身邊。所以不像 Clark Kent,戴上眼鏡後您就可以獲得超能力。好了,誰想看看 Android XR 眼鏡的早期演示?讓我們看看它們如何在最混亂的環境中發揮作用,也就是 I/O 的後台。我們自己的 Superwoman Nishtha 正在後台向我們展示這些眼鏡的實際運作。讓我現在發送一條簡訊給她,然後開始。
Android XR 眼鏡即時演示
NISHTHA BHATIA: 大家好!現在,您應該透過我的 Android XR 眼鏡看到 exactly 我所看到的一切,包括這杯美味的咖啡,以及 Shahram 剛剛發來的簡訊。讓我們看看他怎麼說。好的,肯定是表演時間了,所以我要啟動 Gemini,讓我們開始吧。請發送一條簡訊給 Shahram,說我已經開始了,並靜音我的通知。
GEMINI: 好的。我已經將訊息發送給他,並靜音了您的所有通知。
NISHTHA BHATIA: 太完美了。
DIETER BOHN: 嘿,Nishtha。我看到你眼鏡上的燈亮了,所以我們可以說我們現在正在直播對嗎?
NISHTHA BHATIA: 我們正式與 I/O 團隊連線了。
DIETER BOHN: 從這個角度看 I/O 真是太棒了。你答應過我,如果我在這裡幫忙,就會給我一副眼鏡,你說呢?
NISHTHA BHATIA: 當然。之後我們一起去喝咖啡吧,我會把眼鏡帶給你。
DIETER BOHN: 太棒了,到時候見。祝你好運。
Continued Android XR Glasses Demo
NISHTHA BHATIA: 如您所見,後台有很多事情正在發生。那是不是職業籃球員 Giannis 戴著我們的眼鏡?
GIANNIS: 我愛這個。它解放了我的雙手。
NISHTHA BHATIA: 讓我向您展示這些眼鏡的功能。我對這面照片牆感到好奇一整天了。比如這是哪個樂隊?他們與這個地方有什麼聯繫?
GEMINI: 那是 Counting Crows,一支傳奇的灣區搖滾樂隊。他們在 Shoreline amphitheater 演出過無數次,這些演出通常被視為樂隊的返鄉演出。
NISHTHA BHATIA: 不會吧。您能給我看看他們在這裡演出的照片嗎?非常...
GEMINI: 當然。這是一張。想讓我播放他們的一首歌嗎?
NISHTHA BHATIA: 我非常想聽。我可以在走向舞台的路上聽。
GEMINI: 太好了。這是 Counting Crows 的 Under the Aurora。
即時翻譯演示
SHAHRAM IZADI: 誰準備好看看這些眼鏡了?歡迎 Nishtha!
NISHTHA BHATIA: 大家好!
SHAHRAM IZADI: 謝謝您帶來的星光熠熠的幕後體驗。順帶一提,您現在想跟 Dieter 約一下咖啡時間嗎?
NISHTHA BHATIA: 工作人員在後台給了我一些很棒的咖啡。所以讓我嘗試一些有趣的事情。我剛才杯子上的咖啡店叫什麼名字?
GEMINI: 嗯,那可能是 Bloomsgiving。據我所知,這是一家位於 Castro 街充滿活力的咖啡店。
NISHTHA BHATIA: 記憶力真好。
[ 掌聲 ]
您能給我看看那家咖啡館的照片嗎?我想看看那裡的氛圍。
GEMINI: 沒問題。Maps 上的這些照片有幫助嗎?
SHAHRAM IZADI: 我知道那個鏡頭。它是一家花店,同時也是一家花店,但它在市中心。
NISHTHA BHATIA: 好的。Gemini,給我看看走到這裡需要多久。
GEMINI: 正在為您獲取路線。需要大約一個小時。
NISHTHA BHATIA: 好的。我可以走走路,而且抬頭顯示的導航和完整的 3D 地圖應該會非常方便。
[ 掌聲 ]
繼續為 Dieter 發送那家咖啡館的邀請,今天下午 3 點喝咖啡。
GEMINI: 我現在就發送邀請。祝您咖啡愉快!
SHAHRAM IZADI: 正如您所見,Gemini 幫助 Nishtha 搜尋她看到的內容,記住咖啡杯等細節,預訂活動,甚至導航,所有這些都無需從口袋裡拿出手機。我現在也戴著眼鏡,它們是我的個人提詞器!而且我有度數鏡片,所以我能看到大家。這對眼鏡來說是一個重要的時刻。讓我們捕捉下來。
Android XR 眼鏡的未來與合作夥伴
NISHTHA BHATIA: 好的。大家準備好拍張快照吧,讓我們請出我們的明星!好的,Gemini。為我拍張照!
[ 掌聲 ]
好的,Gemini,為我拍張照並添加到我的最愛。
SHAHRAM IZADI: 看起來太棒了。
[ 掌聲 ]
我完全被迷住了。好的。最後一件事。Sundar 之前展示了即時翻譯的可能性。讓我們看看這在眼鏡上是什麼樣子的。這是一個非常危險的演示,但我們要嘗試一下。Nishtha 和我將用我們的母語交流。Nishtha 將說印地語,我將非常糟糕地說波斯語。你們將在這裡看到我們兩個眼鏡的畫面,所以你們都可以跟著看。我們將即時顯示英文翻譯。好的,我們試試看。手指交叉!
[ 說母語 ]
NISHTHA BHATIA: ( 說印地語 )
SHAHRAM IZADI: ( 說波斯語 ) 我們說了這是一個危險的演示。
[ 掌聲 ]
非常感謝。
SHAHRAM IZADI: 謝謝 Nishtha,為我們帶來了精彩的 Android XR 眼鏡導覽。當您身邊有一個如此有用的 AI 助理,並配備這些 Android XR 裝置時,我們對其可能性感到非常興奮。但這還不止。我們正在將與 Samsung 的合作夥伴關係提升到一個新的水平,將 Android XR 從頭戴裝置擴展到眼鏡。我們正在創建軟體和參考硬體平台,以便生態系統能夠與我們一起構建出色的眼鏡。我們的眼鏡原型已經被信任測試人員使用。而且您將能夠在今年晚些時候開始為眼鏡進行開發。我們知道,這些眼鏡需要時尚,讓您願意全天佩戴。這就是為什麼我今天很高興地宣布 Gentle Monster 和 Warby Parker 將成為首批與我們合作構建 Android XR 眼鏡的眼鏡合作夥伴。
[ 掌聲 ]
我們希望您能夠佩戴符合您個人品味的眼鏡。這僅僅是一個開始。我迫不及待地想讓您親自體驗 Android XR,我們在接下來的幾個月將分享更多資訊。非常感謝!
[ 掌聲 ] [ 音樂 ]
AI 計數器與社會影響
SUNDAR PICHAI: 那些 XR 眼鏡太棒了!從研究到現實,字面上就在我們眼前。好的。我們的展示快要結束了。今天,你們聽到了很多關於 ELO 分數、基準測試和最先進性能的資訊。但我知道有一個指標是你們一直在等待的,那就是我們的 AI 計數器。所以讓我們看看最後一個排行榜。看起來,我猜我們有一個新的參與者,Gemini 領先了,分數是 95。非常振奮人心。
[ 掌聲 ]
更嚴肅地說,這就是我們今天宣布的一切。從新產品推出和產品擴展,到對未來的展望,AI 帶來的機會確實是巨大無比的,這將取決於這一波開發者、技術建造者和問題解決者,確保其益處惠及盡可能多的人。我想與你們分享一些啟發我的例子。第一個例子對居住在加州和世界上許多其他地方的人來說最為關注。我們中有很多人認識受野火影響的人。野火可以突然發生,並在幾分鐘內失控。速度和精確度可以決定一切。我們與一個令人驚嘆的合作夥伴團隊一起,正在構建一個叫做 Firesat 的系統,這是一個衛星星座,利用多光譜衛星圖像和 AI,旨在提供接近即時的洞察。看看這個解析度。它可以檢測到小至 270 平方英尺的火災,大約是一個單車車庫的大小。我們的第一個衛星目前正在軌道上。當完全投入運營時,圖像更新頻率將大大提高,從目前的每 12 小時一次縮短到每 20 分鐘一次。
[ 掌聲 ]
在其他類型的緊急情況下,速度也至關重要。在 Hurricane Helene 期間,Wing 與 Walmart 和 Red Cross 合作,利用無人機配送提供了救援物資,在 AI 的支持下,我們能夠根據即時需求將食物和藥品等關鍵物品送達 North Carolina 的一個 YMCA 庇護所。我們可以想像這在其他社區的災害救援中會有多麼有用,我們正在積極努力擴大規模。這些例子說明了 AI 目前如何幫助社會。想到今天的研究在短短幾年內就能成為現實,這尤其令人鼓舞。無論是建造下一代有用的機器人,為世界上致命疾病尋找治療方法,推進誤差修正量子電腦,還是提供能安全將您送達任何地方的完全自動駕駛汽車,所有這一切在數年內,而非數十年內,都是非常有可能的。這太令人驚嘆了。這種改善生活的機會是我不會視為理所當然的。最近的一次經歷讓我深有體會。我在 San Francisco 與我的父母在一起。他們做的第一件事就是像許多其他遊客一樣,乘坐 Waymo。我之前乘坐過 Waymo,但當我看到我八十多歲的父親坐在前排完全驚訝時,我以全新的視角看到了進展。這提醒我們,技術具有啟發和推動我們前進的不可思議的力量。我迫不及待地想看到我們接下來將共同建造什麼令人驚嘆的事物。謝謝。
[ 重低音 ]
我看到了... Flow 的無限可能性。
這是什麼魔法?
AI Mode 是自搜尋引擎發明以來最大的革命。
你告訴 Gemini 你想建什麼,它就會為你建造。
不!
用 Gemini 2.5 Pro 編碼,太棒了!
Project Mariner 將改變我們使用瀏覽器的方式。
它是一個為你辦事的 AI 代理。
NotebookLM 的思維導圖徹底改變了學習方式。
這個人走到哪都跟著我?
GEMINI: 那只是你的影子。
等等,你要右轉?!
AI 正在徹底改變我們撲滅火災的方式。
生成式媒體正在擴展創意的疆界。
這是我第一次看到這種情況,真是太神奇了。
這不只是一個工具。
這是遊戲規則改變者。
這簡直令人震撼。
潛力幾乎是無限的。
[ 音樂 ]