原文連結: OpenAI 深度研究團隊:為何端到端訓練是 AI 代理的未來
Josh Tobin:在這個領域,人們一再學到的一個教訓就是,我們總以為可以透過手動編寫來比模型做得更聰明。但實際上,隨著這個領域的發展,模型往往能夠比人類找到更好的解決方案。
此外,機器學習最重要的一條原則就是:「你得到的,就是你所優化的結果。」如果你能夠設計一個系統,使其能夠直接優化你所期望的結果,那麼成效將遠遠優於那些你試圖拼湊但並非端到端優化的模型。因此,我的長遠觀點是,在模型基礎上進行強化學習調校,可能會是打造最強大代理(agent)的關鍵方式。
Sonya Huang:我們很高興能夠邀請 OpenAI 深度研究(Deep Research)產品的負責人 Isa Fulford 和 Josh Tobin。Deep Research 在三週前推出,迅速成為熱門產品,許多科技領袖(如 Collison 兄弟)都在使用它,應用範圍涵蓋產業分析、醫學研究,甚至生日派對規劃。
Deep Research 採用了端到端強化學習,專注於高難度的網頁瀏覽與推理任務。這是 OpenAI 一系列代理產品中的第二款,第一款是 Operator。我們與 Isa 和 Josh 深入探討了 Deep Research 的應用場景、技術細節,以及未來 OpenAI 代理產品的發展方向。
Isa 和 Josh,歡迎來到我們的節目!
Lauren Reeder:感謝你們的參與!
Josh Tobin:很高興來到這裡!
Isa Fulford:謝謝你們邀請我們!
Deep Research 的誕生與功能
Lauren Reeder:讓我們從最基本的問題開始——Deep Research 是什麼?請告訴我們它的起源故事,以及它的功能。
Isa Fulford:Deep Research 是一個能夠搜尋大量線上網站並生成極為詳盡報告的 AI 代理。它可以執行需要人類耗費數小時才能完成的任務。
這款產品整合於 ChatGPT,通常只需要 5 到 30 分鐘即可提供答案。因此,它能夠進行更深入的研究,並比標準的 ChatGPT 回應提供更具細節性且有來源依據的解答。
這是我們發布的第一批 AI 代理之一。我們不久前剛推出 Operator,而 Deep Research 則是第二款代理。未來我們還會發布更多類似的產品。
Sonya Huang:Deep Research 的誕生故事是什麼?你們何時決定開發這個產品?靈感來源是什麼?有多少人參與?這個產品經歷了哪些開發階段?
Josh Tobin:這個問題很好,不過這是在我加入之前的事情。
Isa Fulford:(笑)是的。我記得大約一年前,我們內部在這種全新推理範式上取得了巨大進展,開始訓練模型在回答問題前先進行深思熟慮。當時我們主要關注數學與科學領域,但我們發現,這種新的推理模式也能解鎖更長時間跨度的任務,特別是那些需要自主行動(agentic abilities)的應用。
許多人需要執行涉及大量線上研究或外部資訊的工作,這些工作不僅需要推理能力,還需要對資訊來源進行篩選與判斷,甚至需要一定的創造力。我們終於擁有了可以勝任這些任務的模型和訓練方法,因此我們決定先從訓練 AI 進行瀏覽任務開始,並使用與推理模型類似的方法,將其應用於更真實的世界場景。
Sonya Huang:這是你的想法嗎?Josh,你是如何加入這個項目的?
Isa Fulford:最初的構想是由我和 Yash Patil 提出的,他在 OpenAI 也負責一個類似的項目(我們之後會發布它,真的很讓人興奮!)。我們一開始做了一個初步的 Demo,還有 Thomas Dimson 參與開發,他是一位極為出色的工程師,能夠深入研究任何領域並快速完成大量工作,與他合作真的很有趣。
Josh Tobin:是的,我是最近才加入的。我在六個月前重新回到 OpenAI,此前我創辦了一家初創公司。其實我曾在 OpenAI 的早期階段工作,這次回來後,我四處看看有哪些正在進行的項目,然後對這些 AI 代理計畫產生了濃厚的興趣,於是就加入了這個團隊。
Lauren Reeder:太棒了!那麼,這款產品主要是為哪些人設計的呢?
Josh Tobin:基本上,任何從事知識型工作的個人或團隊都能受益於 Deep Research,無論是在日常工作還是生活中。我們目前觀察到,大多數使用者都將它應用於工作研究,例如市場分析、企業評估、房地產研究等等。
Isa Fulford:還有很多科學與醫學研究領域的應用。我們也看到大量與醫學相關的使用案例。
Josh Tobin:是的,此外,我們對於「需要花費數小時搜尋與整理資訊」的應用場景特別感興趣,這不僅限於工作,還可以幫助人們更高效地完成購物、旅行規劃等日常任務。
Isa Fulford:我們對於即將推出的 Plus 版本 也非常期待,這樣更多使用者可以體驗 Deep Research,並發掘全新的使用場景。
Lauren Reeder:太好了!這確實是我這幾週以來最常使用的產品之一,真的非常驚艷!
Isa Fulford: 我聽到這個消息真的很開心。
Josh Tobin: 用來工作嗎?
Lauren Reeder: 主要是工作,當然也有娛樂用途。
Sonya Huang: 你都用來做什麼呢?
Lauren Reeder: 喔,我嗎?天啊。所以我最近在考慮買一輛新車,想弄清楚這款車的下一個型號何時發布。但是網上充斥著各種猜測性的部落格文章,比如製造商過往的發布模式等等。所以我問 Deep Research:「你可以整理一下關於這款車的所有小道消息,還有製造商過去的發布紀錄嗎?」它幫我做了一份超棒的報告,告訴我也許可以再等幾個月,但今年、未來幾個月內應該就會發布了。
Josh Tobin: 是啊,這款產品很酷的一點是,它不僅能夠廣泛收集各種資訊,還非常擅長挖掘網路上的冷門資訊。如果你想找一些特別具體的內容,可能在搜尋結果的第一頁找不到,但 Deep Research 卻能幫你挖出來,這點真的很棒。
Lauren Reeder: 你們有看到什麼讓人驚訝的使用案例嗎?
Josh Tobin: 哦……
Isa Fulford: 我最驚訝的一點是,有這麼多人用它來寫程式。
Josh Tobin: 沒錯。
Isa Fulford: 這其實不是我們一開始考慮的應用場景,但我在 Twitter 和其他回饋管道上,看到很多人用它來搜尋程式碼、尋找某個特定套件的最新文件,甚至幫助他們撰寫腳本。
Josh Tobin: 是啊,我都有點不好意思,當初怎麼沒想到這種用法。
Isa Fulford: [笑] 真的。
Josh Tobin: 對 ChatGPT 的使用者來說,這應該是顯而易見的,但它表現得比我們預期的還要好,真的讓人印象深刻。
Sonya Huang: 你覺得商業用途和個人用途的比例,未來會如何發展?你們提到即將推出 Plus 版本,一年或兩年後,你認為這會主要是企業工具,還是主要面向消費者?
Isa Fulford: 希望兩者皆有。我覺得這是一種相當通用的能力,無論是工作上還是日常生活中,都可能會用到。所以希望兩者都能發展起來。
Josh Tobin: 我對兩者都感到興奮。它的魔力在於,能夠幫人節省大量時間。如果有些事情本來需要花上好幾個小時,甚至幾天的時間來做,人們現在只需要輸入問題,就能獲得 90% 接近自己想要的結果。所以我覺得,從數量上來看,商業場景的需求可能比個人使用更多,但毫無疑問,它會成為人們日常生活的一部分。
Lauren Reeder: 這已經成為我主要使用 ChatGPT 的方式了。我現在基本上都是用 Deep Research,而不是一般的 ChatGPT。
Isa Fulford: 真的嗎?
Lauren Reeder: [笑]
Josh Tobin: 是啊,說明你很有耐心。
Lauren Reeder: 看來是這樣。
Lauren Reeder: 目前你們看到的消費者使用情境有哪些?有什麼特別讓你們感到興奮的嗎?
Isa Fulford: 很多是購物和旅行推薦。我自己用了這款模型很久了,已經習慣用它來做這類事情。我們在日本發表 Deep Research 時,它幫了大忙,讓我們找到符合特定需求的餐廳,還發現了一些自己可能不會找到的地方。
Josh Tobin: 是啊,尤其是當你購買昂貴商品、規劃特別的旅行,或者想要深入研究某件事時,它的價值就特別大。以我自己來說,如果我要買一樣東西,可能會花數小時甚至數天時間,上網閱讀所有的評論、論壇討論等。而 Deep Research 能夠迅速彙整這些資訊,真的很有幫助。
Isa Fulford: 這款模型也非常擅長執行指令。如果你的問題有很多部分,或者有多個不同的要求,比如你想查詢某款產品的資訊,但同時也想比較其他產品,還想知道 Reddit 上的使用者評價等等,你可以一次輸入所有需求,它都能幫你完成。
Josh Tobin: 另外一個小技巧,就是請它用表格格式呈現資訊。它通常也會自動這麼做,但有表格加上引用來源,能讓研究結果更有條理。
Isa Fulford: 是啊,還有一些我們希望未來能加入產品的功能。像是目前底層模型已經能夠嵌入圖片,所以它可以找出產品的圖片。此外,雖然這不算消費者用途,但它還能生成圖表並嵌入到回應中,希望這些功能未來能夠在 ChatGPT 上推出。
Sonya Huang: 這是個很「極客」的消費者使用情境啊。[笑]
Josh Tobin: 說到極客級的消費用途,我覺得個人化學習也是一個很有趣的應用。如果你一直想學某個主題,比如想補充生物學知識,或者想了解某個世界事件,它能幫你整理你還不太理解的部分,然後進行深入研究,最後生成一份完整的報告。
Isa Fulford: 我有個朋友正在考慮創辦一家消費品公司,他最近經常用 Deep Research 來找相似的產品、查看某些品牌名稱的網域是否已被註冊、進行市場規模分析等等。他還會把這些報告分享給我看,真的很有趣。
Josh Tobin: 還有一個很有趣的用途是,它真的很擅長搜尋網路上某個冷門的資訊。比如說,你想找一部冷門電視節目的某個特定片段,或者某個很難找到的歷史事件,它都能深入挖掘並找到相關資料。
Isa Fulford: 沒錯!我哥哥的朋友的爸爸曾經問過一個超級冷門的問題,是關於某個奧地利將軍,他在一場戰役中掌權時,有人去世的歷史事件。這個問題非常小眾,而 ChatGPT 之前的回答是錯的,他很確定那是錯誤的。所以他特地跑去公共圖書館查閱記錄,最後確認 ChatGPT 確實錯了。後來我們用 Deep Research 來查這個問題,它找到了正確的答案,我們把結果傳給他,他超開心的。[笑]
Sonya Huang: 現在大致的思維模型是什麼?你知道,Deep Research 今天擅長的是什麼?人們應該在哪些情境下使用 o 系列模型?應該在哪些情境下使用 Deep Research?
Josh Tobin: Deep Research 真正擅長的地方在於,當你有一個詳細的需求描述,而要獲得最佳答案需要閱讀大量網路資料時。當問題比較模糊時,它可以幫助你釐清需求。但當你尋找的是特定的一組資訊時,它的效果最好。
Isa Fulford: 我認為它非常擅長綜合處理所獲得的資訊,也很擅長找到那些難以尋覓的特定資訊。它也能從中產生一些新的見解,但目前還沒有達到能夠做出全新科學發現的程度。而對於 o 系列模型,如果我在詢問與程式設計相關的問題,通常這些問題不需要來自網路的最新資訊,而只需模型本身透過預訓練所學到的知識。因此,對於程式設計,我通常會使用 o1 Pro 或 o1,或者是 o3-mini high。
Lauren Reeder: Deep Research 是 OpenAI 目前產品新方向的一個很好示例。我很好奇,在你們可以分享的範圍內,它是如何運作的?
Isa Fulford: 支持 Deep Research 的模型是 o3 的微調版本,而 o3 是我們最強大的推理模型。我們特別針對網頁瀏覽的複雜任務和其他推理任務進行了訓練。此外,它還能使用瀏覽工具和 Python 工具。透過對這些任務的端對端訓練,它學會了解決這些問題的策略,因此最終的模型在網路搜尋與分析方面表現優異。
Josh Tobin: 直觀地來說,你可以這樣理解它:當你輸入請求時,最好是詳細描述你的需求。模型會仔細思考這個請求,搜尋相關資訊,讀取這些資訊,理解它們與請求之間的關係,然後決定接下來應該搜尋什麼,以便更接近你要的最終答案。它被訓練成能夠有效整合這些資訊,並產出一份清晰有條理的報告,附帶來源引用,指向它找到的原始資訊。
Isa Fulford: 是的,我認為 Deep Research 作為一種代理型能力(agentic capability),它的新穎之處在於,我們能夠進行端對端訓練,而在研究過程中,會涉及許多無法事先預測的步驟。因此,我認為無法僅透過編寫語言模型、程式或腳本來達成像它這樣的靈活性。模型透過訓練學會如何應對即時網路資訊,並根據新發現的內容改變搜尋策略。我們實際上看到它會進行相當具有創意的搜尋,你可以閱讀它的思考鏈摘要,並發現它在決定下一步該查找什麼時,常常表現得非常聰明。
Sonya Huang: John Collison 曾發過一條頗受關注的推文。你認為 Deep Research 的神奇之處有多少來自於即時存取網路內容,又有多少來自於其推理能力?可以稍微解釋一下嗎?
Isa Fulford: 我認為這兩者兼具。我們可以看到一些其他的搜尋產品並未進行端對端訓練,因此在應對即時資訊時的靈活性較低,解決特定問題時的創意性也較不足,因為它們並不是專門為此目的訓練的。所以這絕對是一種綜合優勢。Deep Research 是 o3 的微調版本,而 o3 本身就是一個非常聰明且強大的模型,因此很多分析能力來自於其基礎的 o3 訓練。所以,這兩者都發揮了作用。
Josh Tobin: 在加入 OpenAI 之前,我曾在一間新創公司工作,我們嘗試開發代理模型,方式類似於目前許多人在網路上描述的方式,也就是構建一個運作流程圖,其中某些節點由語言模型決定接下來的步驟,但整體邏輯仍由人類定義。我們發現,這種方法雖然能快速建立原型,但在真實世界中很快就會遇到困難,因為很難預測模型可能會遇到的所有情境,並設計應對這些情境的各種分支路徑。
此外,這種模型往往並非最佳決策者,因為它們並不是專門為做決策而訓練的,而只是被訓練來執行看起來類似的任務。因此,Deep Research 的強大之處在於,它是直接針對使用者需求所面臨的任務進行端對端訓練的。
Lauren Reeder: 所以,你們不需要手動設計流程圖,或在後端架構中設計這些決策節點?
Isa Fulford: 一切都是由模型自動驅動的。
Josh Tobin: 是的。
Sonya Huang: 你能多談談這一點嗎?因為這似乎是你們做出的非常有主見的決策之一,而且顯然這是成功的。有這麼多公司正在基於你們的 API 建構產品,利用提示來為特定用戶解決特定任務。你認為許多這類應用是否會更適合透過端對端訓練模型來支援它們的特定工作流程?
Isa Fulford: 我認為,如果你的工作流程是非常特定且相當可預測的,那麼採用 Josh 描述的方法是很有意義的。但如果你的應用有很多邊緣案例,或者它需要非常靈活,那麼我認為類似 Deep Research 的方法可能會更好。
Josh Tobin: 是的,我給大家的建議是,你不應該在模型中硬性植入一些固定的規則。如果你有一個不希望模型觸及的資料庫或類似的東西,最好透過人工撰寫的邏輯來處理。但我認為,在這個領域,人們反覆學到的一個教訓是,我們總覺得自己可以透過手動編寫程式來比模型做得更聰明,但實際上,隨著技術的進步,模型往往能找到比人類更好的解決方案。
而且,機器學習的第一條準則就是,你最終得到的成果取決於你的優化目標。所以,如果你能建立一個系統,讓它直接針對你想要的結果進行優化,那麼結果通常會比你試圖拼湊一個未經端對端優化的模型來完成某項任務要好得多。因此,從長遠來看,我認為強化學習和模型微調將成為構建最強大代理系統的一個關鍵部分。
Deep Research 的技術挑戰
Sonya Huang: 在讓這項技術落地的過程中,最大的技術挑戰是什麼?
Josh Tobin: 嗯,我可以從旁觀者的角度來說,而不是作為一開始就參與這個項目的人,但看起來 Isa 和團隊其他成員非常努力地解決的一個關鍵問題,也是一個成功的隱藏要素,就是建立高品質的數據集。這是機器學習領域另一個被人們不斷重新學習的經驗法則——你輸入到模型中的數據品質,可能是決定最終模型品質的最重要因素。
Isa Fulford: 還有像 Edward Sun 這樣的人,他是這個項目中的另一位成員,他能夠對任何數據集進行最佳化。這就是成功的秘訣。
Lauren Reeder: 找到你的 Edward。
Josh Tobin: 偉大的機器學習模型訓練。
Lauren Reeder: 你們如何確保結果是正確的?
Isa Fulford: 這當然是這個模型和產品的核心部分,我們希望使用者能夠信任它的輸出。因此,我們提供引用來源,讓使用者能夠看到模型是從哪裡引用資訊的。在訓練過程中,我們確保這些引用的準確性,但模型仍然有可能出錯、產生幻覺(hallucination),或信任某個可能並非最可靠的資訊來源。這是一個我們仍在積極改進的領域。
Sonya Huang: 我們應該如何看待這個技術與 o3、Operator 及其他產品的關係?這是否使用了 Operator?它們彼此有關聯嗎,還是它們都是 o3 在不同應用場景下的變體?
Josh Tobin: 目前這些產品之間是相當獨立的,但可以想像我們的未來方向——最終,我們希望開發一個終極代理系統,讓人們可以使用它來執行不僅僅是網路搜尋或電腦操作的任務,而是能夠更自然地整合這些能力。
Sonya Huang: 你們還做出了哪些設計決策,可能一開始不太明顯?
Isa Fulford: 其中之一是「釐清流程」(clarification flow)。如果你使用過 Deep Research,你會發現模型在開始研究之前會先向你提問。而 ChatGPT 通常不會這樣做,最多是在回答結束時問你一個問題,但不會一開始就這麼做。我們這樣設計是有意圖的,因為如果提示詞(prompt)非常明確且詳細,Deep Research 模型的回應會是最好的。而我們發現,使用者通常不會在一開始就提供所有詳細資訊,所以我們希望確保當使用者願意等待五分鐘甚至三十分鐘後,能夠獲得最詳細、最滿意的回答。因此,我們增加了這些額外步驟,確保使用者提供所有必要的細節。
我也在 Twitter 上看到一些人說,他們會先使用 o1 或 o1 Pro 來幫助自己撰寫更詳細的提示詞,等他們對提示詞滿意之後,再將其發送給 Deep Research。這很有趣,因為人們正在自行探索最適合自己的使用方式。
Lauren Reeder: 在過去幾個月裡,你們推出了三種不同的 Deep Research 產品。可以和我們談談你們的產品有什麼特別之處,以及我們應該如何理解它們嗎?
Sonya Huang: 而且它們都叫 Deep Research,對嗎?
Josh Tobin: 沒錯,它們全都叫 Deep Research。這個領域在命名方面真的沒什麼創意(笑)。我認為大家應該親自試試這些產品,感受其中的差異。我覺得它們各有優缺點,但品質差異應該是顯而易見的。而這些差異主要來自於模型的建構方式、數據集的打造,以及我們基於 o 系列模型所建立的優化引擎,這讓我們能夠創造出非常聰明且高品質的產品。
Sonya Huang: 我們去年曾邀請 o1 團隊參加播客節目,當時我們還開玩笑說 OpenAI 並不擅長為產品命名。但我必須說,這次你們的產品名稱是最貼切的(笑)。
Josh Tobin: Deep Research 嗎?至少它確實描述了它的用途吧(笑)。
Deep Research 的未來展望
Lauren Reeder: 我很好奇,你們接下來的發展方向是什麼?現在你們有了 Deep Research,你們認為它在一年後會變成什麼樣子?在這個過程中,你們還有哪些想要開發的互補產品?
Isa Fulford: 我們很期待擴展模型能夠存取的數據來源。目前我們訓練的模型在瀏覽公共資訊方面表現優異,但它應該也能夠搜尋私有數據。此外,我們還希望進一步提升其能力,例如讓它更擅長網路瀏覽、更擅長分析。短期內,我們主要會專注於這些方面的改進。
Josh Tobin: 是的,還有如何將這項技術納入我們更廣泛的代理系統路線圖。我認為這個方法可以擴展到非常多樣的使用場景,甚至會讓人們驚訝它的應用範圍有多廣。但這背後的基本原則是,你拿一個最先進的推理模型,讓它能夠使用人類日常工作的工具,並直接優化它的行為,使其達到你希望它能完成的任務。這種方法並沒有什麼能夠阻止它擴展到更複雜的任務,因此我覺得,現在 AGI(通用人工智慧)已經成為一個「可操作的問題」(operational problem)。未來還會有更多基於這一公式的發展,值得期待。
Lauren Reeder: 所以 Sam 曾經說過一句相當驚人的話:「Deep Research 將接管全球所有具經濟價值任務的一位數百分比。」我們應該如何理解這個說法?
Josh Tobin: 我認為 Deep Research 並不能完全取代你的工作,但它確實能幫助你節省數小時,甚至在某些情況下,數天的時間。因此,我認為我們可能已經相當接近這樣的目標了:Deep Research 以及我們接下來打造的代理人,還有建立在其基礎上的代理人,將能為你節省 1%、5%、10%,甚至 25% 的時間,具體取決於你的工作類型。
Sonya Huang: 其實我覺得你們已經自動化了我 80% 的工作……
Lauren Reeder: [笑] 對我來說也是在較高的範圍內。
Josh Tobin: 看來我們應該開始開支票了,是吧?
Sonya Huang: 你覺得有哪些工作類別比較容易受到影響呢?「受威脅」這個詞可能不太恰當,但哪些類型的工作會更符合 Deep Research 擅長處理的範疇?舉例來說,我會想到顧問業,但你認為有哪些特定領域更適合它發揮作用?
Josh Tobin: 我以前就是顧問。我不認為有任何工作會受到威脅。我完全不把這看成是一種勞動力替代工具。但對於這類知識型工作——也就是那些大量花時間搜尋資訊並做出結論的工作,我認為它會為人們帶來「超能力」。
Isa Fulford: 我對許多醫學應用場景感到非常興奮。舉例來說,它能夠查找所有關於某種疾病的文獻或最新案例。我已經看到許多醫生分享他們的使用經驗,甚至有人主動聯繫我們,告訴我們:「我們用它來做這件事,我們用它幫助某位病人找到合適的臨床試驗。」對於這些已經非常忙碌的醫療人員來說,這不僅節省了時間,還能讓他們獲取更多資訊,而這些資訊可能是他們原本沒有時間查找的。
Josh Tobin: 是的,我認為這樣的影響其實比表面上聽起來的還要深遠。這不僅僅是「節省 5% 的時間」,而是原本需要四小時、八小時才能完成的事情,現在只要訂閱 ChatGPT,再加上五分鐘就能完成。所以,當你擁有無限的時間時,你會做些什麼?現在,也許你能做許多你過去根本無法兼顧的事情。
舉個例子,你應該研究每一家你可能投資的初創企業,而不只是那些你有時間親自會面的公司嗎?這類問題現在都變得可行了。
Sonya Huang: 從消費者的角度來看,我想到的一個場景是,某位忙碌的職業媽媽可能根本沒有時間為她的孩子計劃生日派對,而現在,這件事變得可行了。我完全同意,這遠遠不只是「節省 5% 的時間」這麼簡單。
Josh Tobin: 是的。
Lauren Reeder: 這讓人們能夠做以前根本做不到的事情。
Isa Fulford: 沒錯。
Sonya Huang: 這對教育方式和學習方法會帶來什麼樣的改變?現在我們進入了一個由 AI 代理人和 Deep Research 主導的世界,你會教你的孩子些什麼?
Josh Tobin: 教育一直是 AI 最受歡迎的應用領域之一。這不僅僅適用於 ChatGPT,整體而言,與 AI 系統互動並學習知識,讓 AI 根據你的輸入個性化回應,甚至未來能根據它對你的了解進行調整,這比傳統的教科書學習方式要高效且更具吸引力。
快問快答環節 Lauren Reeder: 接下來我們進入快問快答環節。
Josh Tobin: 好的。
Sonya Huang: 你最喜歡的 Deep Research 使用案例是什麼?
Josh Tobin: 我會說是個人化學習。我可以用它來學習任何我想學的知識。
Isa Fulford: 我之前提過這個,但我覺得那些人們分享的個人故事最讓我感動,比如有人透過它找到與自己或家人診斷結果相關的重要資訊,這真的很棒。
Sonya Huang: 去年有幾個應用類別大放異彩,例如程式編寫。今年你覺得哪些應用類別會脫穎而出?
Josh Tobin: 顯然是 AI 代理人。
Isa Fulford: 我本來也要說這個。
Sonya Huang: 好吧,2025 年是 AI 代理人的爆發之年。
Josh Tobin: 我認為是的。
Lauren Reeder: 你會推薦哪篇文章或哪位作者來幫助人們了解 AI 代理人或人工智慧的發展現況?
Sonya Huang: 《Training Data》[笑]。
Josh Tobin: AI 領域的進展太快了,很難跟上。我給大家的建議是,挑選一兩個自己真正感興趣的子領域,然後整理一份關注名單,追蹤那些在該領域發表有趣觀點的人。如果不知道該從哪裡開始,或許這正是 Deep Research 可以幫上忙的地方——讓它幫你深入研究你想學習的內容。
Isa Fulford: 這可能有點舊了,但幾年前我看過 Pieter Abbeel 的《Foundations of RL》這類課程。我覺得這是一個不錯的強化學習入門資源。
Josh Tobin: 我絕對同意,Pieter Abbeel 的任何內容都值得推薦。他是我研究生時期的指導教授。
Isa Fulford: 哦,對。
Sonya Huang: 強化學習曾經有過高峰期,後來又似乎進入了低潮。現在它又回來了嗎?
Josh Tobin: 它完全回來了。
Sonya Huang: 為什麼?為什麼是現在?
Josh Tobin: 因為其他技術現在都已經成熟了。如果你關注這個領域一段時間,你應該還記得 Yann LeCun 曾經提出過的「蛋糕比喻」。
Sonya Huang: 來,說來聽聽。
Josh Tobin: 這個比喻是這樣的:如果 AI 是一塊蛋糕,那麼無監督學習(unsupervised learning)是蛋糕本體,監督學習(supervised learning)是糖霜,而強化學習(reinforcement learning)則是蛋糕上的櫻桃。
在 2015、2016 年,當我們還在研究強化學習時,我們其實是在試圖「先放櫻桃,還沒做蛋糕」。但現在情況不一樣了——我們已經有了用海量數據預訓練的強大語言模型,並且掌握了如何透過監督微調(supervised fine-tuning)來讓它們更擅長指令跟隨和執行特定任務。
現在,這些技術已經成熟,我們可以開始利用強化學習來針對任何可定義獎勵函數的應用場景進行優化。
Sonya Huang: 太棒了。所以從這場快問快答我們得出三個結論:Deep Research 是我們最喜歡的 AI 應用,2025 年將是 AI 代理人的爆發年,強化學習正式回歸。我喜歡這些結論!感謝各位加入我們的對談,我們非常享受這次交流。恭喜你們推出這款令人驚豔的產品,我們迫不及待想看看接下來的發展!
Isa Fulford: 謝謝。