原文連結: How OpenAI Built its Groundbreaking Deep Research Product ft. Isa Fulford

我非常興奮地歡迎 Isa Fulford,她創造了一款我們都知道、使用並喜愛的產品——OpenAI Deep Research。她將談談這款產品,他們是如何做到的,它的未來發展方向,並為我們進行現場演示。她為了這次活動特地從韓國搭紅眼班機過來,今天早上 5:45 才剛抵達。所以,請大家和我一起,以最熱烈的掌聲歡迎 Isa 來到 Sequoia。 [掌聲]

大家好。嗯,我是 Isa。我領導 OpenAI 的 Deep Research 研究團隊。嗯,有些人可能知道,Deep Research 是 ChatGPT 中的一種代理能力,它能進行多步驟的線上研究,以解決非常複雜的任務。所以你給它一個提示,然後 Deep Research 會花 5 到 30 分鐘瀏覽大量線上網路資源,對找到的內容進行推理,然後它會帶回一份引註完整、內容全面的報告,水準大約相當於一位研究分析師。所以它能夠在幾分鐘內完成人類需要花費數小時才能完成的工作。 Deep Research 是由一個我們特別為擅長網頁瀏覽和資料分析而進行微調的 03 版本所驅動。我稍後會更詳細地談談我們是如何做到這一點的。

開發 Deep Research 的緣起

關於我們為什麼開始打造 Deep Research,這裡有一點背景。一年多以前,我們在內部看到強化學習和推理模型取得了許多進展,我們主要針對數學、科學和程式設計任務進行訓練。我們觀察到,從這些類型任務的訓練中,模型的能力可以泛化到其他領域。但我們想知道,如果我們直接針對使用者在日常生活中執行的任務進行訓練,會發生什麼事。以及我們是否能透過直接針對這些事物進行訓練,來打造一個真正有用的模型。我們認為線上瀏覽是一個非常好的初步嘗試領域,因為很多人在非常廣泛的領域和工作中,以及在他們的日常生活中,都會進行線上瀏覽。而且,這也是一個很好的初步沙盒,唯讀的代理是一個很好的起點,因為安全考量可能相對更受限制。

模型訓練與工具開發

所以,要做到這一點,我們首先需要讓人們感到興奮。於是,我們僅僅透過提示模型,就拼湊出一個演示。我當時其實是和 Yash Patil 以及今天也在場的 Thomas Simpson 一起做的。我們製作了這個 Deep Research 產品可能樣貌的演示。我們沒有訓練任何模型,只是讓人們對此感到興奮,然後才開始訓練一個擅長 Deep Research 的模型的過程。這包括創建任務——強化學習任務——以實際教導模型我們希望它學習的瀏覽能力和資料分析能力,同時也包括創建工具並讓模型在訓練期間能夠使用這些工具。所以我們需要讓它能夠存取瀏覽器,這樣它才能搜尋、點擊和滾動內容,同時也需要一種執行程式碼的方法,以進行資料分析、繪製圖表等工作。

Deep Research 實例演示

那麼,現在我將向各位展示一些 Deep Research 目前的例子。我們大部分使用者將 ChatGPT 用於專業用途。例如學者、創投業者——有人這麼告訴我——還有很多顧問和其他領域的人。但同時也有很多人有個人用途。我會說,我個人最大的用途可能是購物和旅遊推薦。所以我會展示一些範例查詢,然後我會實際展示一些我最近自己做的查詢。

如果我們可以切換到螢幕,那就太好了。這是 ChatGPT。我相信各位都很熟悉。嗯,好的。這只是提示。我其實是讓 ChatGPT 幫我寫這個提示的。所以,我今天要在 Sequoia AISN 進行一場簡報,我想要了解並以視覺化方式呈現近期創投在 AI 公司投資方面的趨勢,然後請分析跨越……嗯,你知道的,一些我想調查的不同方面的資金情況,然後我想要一張圖表,能夠有意義地傳達一個關鍵趨勢,主要是因為我想讓你們知道它可以繪製圖表,所以這有點刻意安排。然後你按下開始,Deep Research 做的第一件事就是會回覆一些澄清性的問題。我們之所以這樣設計,是因為我們覺得如果模型要為你做某件事好幾分鐘,你會想確保得到的輸出正是你想要的,而且我們希望使用者一開始就提供盡可能詳細的資訊。所以我們想鼓勵使用者非常具體。它回覆了幾個問題。所以我會說,像是只有美國,或許兩者都可以,或者都可以。所以現在 Deep Research 將會啟動一個研究任務,然後一會兒我們就能夠追蹤它思路鏈的摘要以及它正在採取的行動。所以你將能夠看到交錯的思路鏈,也就是模型對它遇到的來源進行推理的過程,以及它所做的工具呼叫。例如搜尋或使用 Python 工具進行分析。它需要一分鐘左右才能啟動。我同時也有一些預先載入的範例,如果可以的話,我可以在此期間展示。

我來展示一個我這週問的問題,然後我們再回到這個。所以這週早些時候,我在韓國,我其實是在手機上做這個查詢的。我正在尋找一個離我所在地最多 15 分鐘路程的夜市,我希望它能查看 Reddit 以及我自己無法閱讀的韓國資訊來源,然後在每個市場中找出評價最好的店家。你可以想像,用一般的搜尋引擎很難一次完成包含所有這些限制條件的搜尋。但 Deep Research 實際上能夠搜尋網路,並對每個項目進行相當深入的挖掘,判斷它是否符合限制條件,然後再將所有資訊綜合起來給我。所以它給我的最終回覆是像這樣一份相當長的報告,裡面有一些市場的建議,然後每項內容都有引註。如你所見,引註實際上也標註了來源中與其引述句子相關的特定段落。我最後真的去了第一個推薦的地方。

好的,如果我回到我剛才問的原始查詢。所以,你可以看到模型正在思考,然後我們只是總結了它的思路鏈。它說明了它計劃做什麼,然後它進行了一次搜尋,並且正在思考。如果你也用過 03,你會知道 03 在搜尋方面也做得非常好。所以,如果你想要的是更中度的搜尋,我會推薦使用 03。Deep Research 真的算是執行搜尋查詢所需時間的極端情況了。而 03 之所以擅長搜尋,其實是因為它是用我們為 Deep Research 開發的相同工具和瀏覽資料集進行訓練的。所以我將跳到一個我今天早上執行的範例。

嗯,這是關於 AI 領域的最終報告。它繪製了一張圖表,我會展示給你們看。起初我看到這個圖表時,以為一定有什麼錯誤,但我認為這是計入了 OpenAI 的投資,所以這張圖表在三月份看起來非常奇怪。

嗯,是的,我不會讓你們現在就讀完整份報告,但我希望這裡面有一些好的見解。所以我鼓勵你們也自己試試看。然後,我只是想展示 Deep Research 在相當廣泛的不同事物上都很有用。這是一個來自……像是一個生物學應用案例的例子,詢問關於在美國已獲得監管批准,用於治療血友病的特定基因療法,並提供相關資訊,然後模型能夠進行研究,並回覆正確的清單,包含引註和解釋。

未來展望

我們對於持續開發 Deep Research 感到非常興奮。它顯然還不完美。有時候它可能會產生幻覺。所以我們正在努力提升可靠性。我們也很期待將 Deep Research 整合到主要的推理模型中。所以,你知道的,03 已經很擅長搜尋了。我們會繼續將我們研究的成果向上游整合到其他更大的推理模型中。我們也非常期待將私有脈絡帶入 Deep Research。例如,你們公司內部的知識、付費資源。然後我認為我們下一個重大的里程碑將不僅僅是綜合現有資訊,而是實際採取行動。

嗯,非常感謝你們邀請我,嗯,我把時間交給 Zach。謝謝。