原文連結: Anthropic CPO Mike Krieger: Building AI Products From the Bottom Up
各位可能都認識 Mike,他是 Anthropic 的首席產品長,但你也曾一度是 Sequoia 的創辦人。對嗎?是的。而且只有短短一週。短短一週。那間公司是什麼?是 Instagram。Instagram。謝謝。歡迎大家。Mike、Lauren,接下來交給你們了。謝謝你來參加,Mike。
是的,很高興來到這裡。大家好。嗯,有些人可能不知道,但 Mike 其實是個內容迷,所以能有這位 AI 影片製作者在我們面前是很有趣的。你認為 AI 內容的世界會走向何方?
我認為無論媒介是什麼,或者 AI 被用來創作多少東西,最終還是會回歸到:是否有故事在被訴說?內容背後是否有人能讓大眾產生連結,並最終隨著時間推移而產生反應?嗯,所以它就像是故事敘述者工具箱中的另一個工具。
內容控制與來源追溯
嗯,我很好奇你們在建立更多內容、產生更多像素時,如何幫助人們建立控制權?像是 Anthropic 在幫助我們理解模型方面做得非常好,透過機械可詮釋性,以及模型的來源,你們如何讓 Golden Gate Claude 具有這種可追溯性,你們如何考慮將這個選項提供給你們的用戶和客戶?
是的,我認為目前有些東西在特定時間點可能是有用的,例如大家在談論浮水印,以及「哦,這是 AI 生成的嗎?」但你知道,也許今天早上的談話中提到了這一點,我早上不在,但未來大部分內容都將是 AI 生成的,所以區分「這是 AI 製作的還是非 AI 製作的」我認為將會變得沒有意義。嗯,我認為仍然會有關於衍生、來源等有趣的議題。
透過 AI,這些事情可以變得更容易。嗯,說回區塊鏈很有趣,我覺得這已經不是什麼酷話題了,但理論上區塊鏈要解決的問題之一,在整個端到端流程都是位元的情況下,可能會更容易實現。
嗯,但是是的,我認為過去世界中重要的事情,像是你引用了什麼來源,是否有引文,當我思考文件時,這些仍然很重要,而且現在更容易做到。嗯,但至於它是否是 AI 生成的,我認為這不是未來有趣的議題。很有趣。
Anthropic 的產品開發哲學
那麼讓我們深入了解一下 Anthropic 以及你們在那裡開發的一些產品。你們在 artifacts、程式碼模型以及 MCP 方面做得非常出色。我很好奇作為一名產品長,首席產品長,你建構產品的框架是什麼?你如何讓它們……你如何讓產品本身比模型更好?
是的,我認為嗯,關於這點我有兩個想法。
一個是,在 Instagram 時代有用的東西現在仍然有用,對吧?也就是說,你是否在為人們解決真正的問題?如果你正在創建一個開發者工具,你是否讓他們能夠有趣、新穎且快速地做某件事?如果你正在開發一個終端用戶產品,你是否滿足了人們實際的需求?所以我認為這一點現在和以往一樣重要。
我認為不同之處,也是我必須拋棄的一個教訓是,在 Instagram,我們更傾向於由上而下,你知道,三到六個月的時間框架,你知道,進行規劃。第三排的 Thomas 對此深有體會。我們絕對更像是計畫然後交付。我認為這在 Anthropic 以及與其他地方的同行交流時也是如此,你必須允許更多由下而上的創造力,因為我認為最好的產品是那些非常貼近模型開發的產品,而且你通常要到很晚的階段才能知道它們的能力。所以我學會了將某種創作過程顛倒過來,使其更加由下而上,你知道,對於像我這樣有點控制欲的人來說,這有點困難,但我認為這也開啟了一些非常有趣的事情,比如 artifacts 就是一個研究原型,然後被一位設計師和一位工程師接手,然後發布到生產環境。我想我不僅從我們這裡,也從這個領域的其他創作者那裡聽過這樣的故事。是的。
MCP 的起源與發展
你能不能舉些例子?我很好奇,也許 MCP 是整個行業開始採用的更有趣的產品之一。它是怎麼來的?有什麼故事?
是的,MCP 這件事很有趣,因為我最近才像,你知道,我一半的工作是製作迷因並在內部共享。其中一個我製作的迷因是關於 MCP 是如何被創造出來的。當時它只是兩個人眼中閃過的一個念頭。我回想了一下,它真正開始於觀察我們嘗試實作,我想到當時我們正在實作 Google Drive 整合,然後我們實作了 GitHub 整合,而這些事情應該有更多的共同點,對吧?就是把上下文帶入模型中。
嗯,我們內部做了兩個完全不同的實作,而我們正在準備的第三個也將是另一個完全客製化的東西。你知道,通常我的模式是,一件事做三次,第三次時你就可以試著找出其中的抽象概念。這絕對是那種情況,就是「好吧,這裡有什麼共同點?事情會往哪個方向發展?」但這絕對不是一個由上而下的指令,像是「我們需要一個協議來更好地與模型互動」。它再次是兩位工程師覺得「是的,我認為這是個好主意,我們去原型設計並建構它」。嗯,然後就是花時間讓協議更好,讓它真正開放,這樣它才能被 Anthropic 以外的人採用,因為我們認為不僅僅是我們擁有一個協議有價值,而是讓它更加標準化,然後在此基礎上進行迭代。現在它更具社群色彩,你知道,我們 Anthropic,你知道,我們超過一千人,但仍然感覺非常像新創公司,我們正在與像 Microsoft 和 Amazon 這樣的地方合作,它們有各種四個字母的縮寫,你知道,我本來想引用它們,但我甚至不記得其中一些了,但就像是深度,你知道,身份驗證,像是 Exchange 伺服器的身份管理。我想,這些不是我們優先考慮的事項,但當你將其開放給更廣泛的群體時,它們就變得很重要。是的,那太棒了。
你認為它接下來會如何發展?看到這個房間裡的很多人採用 MCP 很有趣。你們昨天好像發布了關於整合的新版本。
嗯,那麼,一旦你有了自下而上的種子,你如何培育它並使其成長?
是的,我認為在 MCP 相關的兩個領域我最感興趣。一個是關於採取行動。所以很多這些專案的 V1 版本都是關於如何將上下文帶入模型中。嗯,像是我們推出的整合功能,你可以引入 GitHub,你可以啟動 Zapier actions,但我認為正確的模式,或者說實際採取行動,未來會變得更加重要,因為理想情況下,你希望這些東西能夠自主行動,不僅僅是檢索,還能自動化工作流程。第二個是當 MCP 和更廣泛的代理程式相互作用時,以及正確的協議是什麼。現在嘗試過度標準化這個還為時過早。我知道 Google 正在做代理程式到代理程式的互動,我想我們仍在探索什麼是正確的模式。
嗯,但我認為這將會非常有趣,像我們內部會討論,到什麼時候你的代理程式會僱用其他代理程式,以及那樣的經濟體系究竟是什麼樣子。所以這是我對未來非常期待的事情。太棒了。
Anthropic 在程式碼生成領域的成就與挑戰
那麼,在這一點上,你們在程式碼產品方面做得非常出色,感覺這不僅僅是幾個人自下而上修修補補的成果。我很好奇你們如何看待這個重點,以及你們目前為止做對了什麼。
是的,我的意思是,即使是程式碼,我也非常敬佩我們的研究人員,呃,這也是,你知道,你可以有一個由上而下的想法,知道要去哪裡,但很多研究創新都來自於幾個人,你知道,推動強化學習的邊界,就像 Dan 稍早談到的那樣,對吧?就像,很多這些東西都來自於發現,而這個過程需要非常由下而上。我認為我們在程式碼方面試圖做好的一件事是,不僅僅專注於基準測試,也真正關注它是否生成了人們喜歡使用的程式碼,或者它是否也產生了良好的結果,所以這是我們會,我們會繼續努力的一件事。但這很有趣,像是,你知道,我們絕對沒有創造「憑感覺寫程式碼」(vibe coding) 這個詞,我認為這在某種程度上是有其自然極限的,但它可以創造出有趣的東西,但這會是你想要用來處理整個程式碼庫、擁有一百人團隊的方式嗎?絕對不是,對吧?所以我認為我們內部正在弄清楚生成程式碼在我們的程式碼庫中的角色。我們大量使用它。我們超過一半的合併請求 (pull requests) 都是由 Claude 程式碼生成的。到目前為止,可能已經超過 70% 了。
但這對於程式碼審查意味著什麼,是我們正在弄清楚的事情,就像你可以得到 Claude 程式碼審查或合併請求審查,但然後就像是無限循環 (turtles all the way down),在什麼時候你才能有那種監督,像是「這會不會把我們引向一個架構上的死胡同?」如果可以用 AI 程式碼來克服通常的技術債重寫,這還重要嗎?我們,我想可能其他像在實驗室裡研究程式碼模型的人,對於其中一些事情來說,無論好壞,都有點像是零號病人。
程式碼生成代理的二階效應
我其實非常好奇想聽聽關於程式碼代理變得越來越好所帶來的一些二階效應,比如程式碼審查就是其中之一。我很好奇,隨著越來越多的人可以編寫軟體,我們將走向何方?
我的意思是,在內部,我意識到的是,這讓你作為一個產品組織的所有其他低效率問題變得極其痛苦,因為現在就像是,那個協調會議,它不僅僅是阻礙了一小時的工程工作,它阻礙了相當於四到八小時的工作量,你知道嗎?所以我認為這使得,我認為我們的產品組織將會因為更快的程式碼生成而徹底崩潰,這只會讓你在試圖達成一致時更加痛苦,而模型在這方面並沒有真正的幫助。我的意思是,它們可以總結會議,它們也許可以為下一次對話做好準備,但它們還沒有達到能夠在組織層面推動決策的程度。很有趣。
Anthropic 內部 AI 模型應用實例
嗯,我的意思是你們在 Anthropic 大量使用 Anthropic 的產品。嗯,這裡有幾個例子。我很好奇在過去的六到十二個月裡,你們正在做或嘗試過哪些事情,是這裡的每個人都應該在你們的模型或其他模型上使用,以使其運作得更好?
我認為很酷的是看到公司內部不同領域的非技術人員開始大量使用模型。嗯,無論是銷售人員用它來準備會議,你知道,他們一開始只是使用現有的功能,然後某個障礙變得非常明顯,然後我們可能會在那裡建構一些客製化的東西。嗯,所以這很有趣,但即使在 AI 實驗室,它的分佈仍然不如你想像的那麼均勻。我認為即使在一個團隊內部,也有非常懂得如何使用它的銷售人員,以及那些更傳統地做事的人,而前者可能更有效率,或者更少遇到障礙,但這還沒有成為每個人都必須使用的要求。
嗯,我自己,我只是把它當作一個思考夥伴。所以每當我寫任何東西,無論是策略文件、規劃事項還是績效評估,嗯,我都有點像,這幾乎就像我開始在飛機上寫程式碼時感覺很奇怪一樣,在 Copilot 出現之後,你會覺得「哦,等等,我真的覺得我只有平常一半的工程師能力了,因為這東西沒有幫我完成」,我現在對於如果我寫了東西卻沒有經過 Claude 的額外審閱循環,也會有同樣的感覺,我會想「啊,這個可能沒有得到充分的審查。」
嗯,稍早 Sam 提到他們二十多歲的人是使用這些模型最好的一群。你在模型使用方面絕對更接近二十多歲的年輕人,這很有趣。是的。雖然,看到人們如何進入職場也令人驚訝,我們一直在與大學進行更多合作,你知道,他們進入職場的方式將會非常不同,在於他們期望使用生成式 AI 的程度,以及對此沒有污名化。這是一個很重要的部分,我們一些最成功的內部產品是那些具有共享可見性的產品。例如,我們在 Slack 內做了很多事情,將 Claude 與內部工具整合起來,我了解到這對於打破即使在 Anthropic 內部也存在的「哦,你是用 AI 做的嗎?」的疑慮非常有幫助,變成「是的,我就是用了,它幫我省了兩個小時,我當然有其他更好的事情可以做,而不是寫這份績效評估之類的」,對吧?所以,嗯,即使觀察我過去一年半的時間,從「哦,我不太確定 Claude 和績效評估」到現在被鼓勵使用,我認為這是一個積極的發展。當然,你應該閱讀結果並確保它確實有效,但真正古怪的是,我們有一個內部工具,可以遍歷所有的 Slack 和內部文件,但它是一個公共頻道,或者根據你的使用方式也可以是私人頻道,但大多數人使用公共版本。而在幾週前的績效評估期間,發生的事情是人們用它來生成他們的初稿,這在公開場合非常有趣。所以我不知道,我很好奇,那些一開始就假設你會在很多工作中使用 AI 的人,是否會更自在,並且不會對使用 AI 帶有那種污名。這有點讓我想起早期的 Midjourney 時代。
是的。是的。是的。完全正確。那種共享的使用可見性,我仍然認為非常重要。我認為我們仍然處於人們如何理解在工作中如何使用這些工具的最初階段。是的。感覺有很多社交機會,我們實際上還沒有看到很多。是的。
Anthropic 的未來展望
我很好奇想聽聽 Anthropic 接下來的計畫。比如你們在程式碼方面做了很多,你們一直在思考企業市場。也許會有更多模型推出。任何你能分享的,我們都想聽聽。在他回答的時候,我們接下來會進行觀眾提問。所以開始思考其他人可能會問什麼問題,我們接下來會轉到那個環節。
是的,我認為對我們來說,無論是在模型方面還是在產品方面,就像我知道「代理程式」(agent) 這個詞,你知道,我看看 David 和 Robo,這對很多人來說都是首要考慮的事情。我認為我們希望盡可能地為很多這類使用案例提供支援。所以很多像程式碼這樣的東西,我認為是更廣泛主題的第一個例子,也就是模型能否連續工作數小時,就像稍早 Meta 的圖表一樣,我認為那就像是,我不會稱之為我們的路線圖,但它是我們的目標,也就是模型能否更長時間地自主工作,它們將需要像記憶體這樣的東西,它們將需要像進階工具使用這樣的東西,它們將需要能夠在組織內部自行配置,這不再僅僅是關於模型本身,也像是你圍繞它建構的完整配套設施,比如它是否可驗證,當你的公司有一百個代理程式而不是只有一個時,日誌記錄會是什麼樣子,而且我不認為我們會,我們不會扮演那個技術堆疊的所有部分,但希望我們可以透過模型和一些建構模塊來實現很多這些功能。很好。
你們很快會有新模型推出嗎?很快,也許,也許很快。我們總是有新模型即將推出。
是的,我期待看到它們。我的意思是,這很搞笑,人們會說「哦,Claude 3.7 仍然是,3.7 Sonnet 仍然是最受歡迎的 Cursor 模型,而且它太舊了。」我會說「老兄,我們二月才發布的。」就像,進度非常瘋狂。呃,我們很快就會有很酷的東西推出。我對此很期待。
產品開發的最大挑戰
我們現場有觀眾想提問嗎?Daria,你身後也有一個。這麥克風大得滑稽。我喜歡。它可以丟。等等我。它可以丟。我們需要那個。你身後那個,不然我來。好吧,我來。你是一位產品人。從產品的角度來看,什麼讓你夜不能寐?你目前正在處理的最困難的產品問題是什麼?
我仍然認為,我會代表我們的產品發言,但我認為這普遍適用。這些產品對於大多數初次接觸的人來說,要有效地使用它們確實很困難。
嗯,我們會開發一些我認為有用的東西,然後它們會有好的工作流程,但仍然有點像是,如果你用正確的方式操作,你可以得到令人難以置信的結果,但如果稍微偏離常規,或者如果你沒有那種洞察力,像是「哦,這樣引入數據」或者「你可以這樣做,然後執行這些工作流程」。那仍然讓人感覺我們離第一次打開 Instagram 時的體驗還很遠,那時你會想「你要做什麼?就是拍照」,現在的產品絕對不是那樣。部分原因是因為我們主要更側重於工作導向,而不是純粹的個人使用案例導向,但這讓我夜不能寐,也就是說,模型如何對人們有用以及它們目前的能力,這方面仍然有巨大的未開發潛力。
對 AI 未來預測的回應
所以 AI27 預測了一個特定的未來,你的世界觀與之相比,是相符還是不同?或者事情會如何發展?你對那篇文章總體上有何評論?
我想大概有兩個反應。第一,嗯,運算能力的重要性,這並不是一個新穎或特別深刻的陳述,但就像,我想這是 OpenAI 討論的重點話題,在 Anthropic 也是如此。所以,我們目前的運算狀況如何?下一代運算會是什麼樣子?我們要和誰合作等等。所以,這種強調以及其中的數字,總體上方向是正確的。所以我認為那很有趣。
嗯,我認為最有趣,也最懸而未決的問題是,是否會因為模型在內部部署更有用而延遲發布。我甚至剛看到本週 Mark Zuckerberg 在 Strategy 的一個訪談中談到提供 Llama 的 API,以及在像使用部分運算能力這樣的權衡。這種對話在每個實驗室都在發生,對吧?也就是說,你是否要花額外的時間在強化學習 (RL) 上,還是把時間花在客戶的使用案例上,還是花在下一個預訓練模型上?嗯,這種相對運算能力的分配將變得極其重要。然後在某個時刻你會想,「哇,如果我們有一個非常大的產品,它將消耗大量的推論 (inference) 資源,而且利潤很高,也很有用,但它卻直接佔用了研究的資源。」你知道,這甚至不是指已知研究的運算,還包括那些來自房間裡兩個人提出的、關於如何擴展的古怪想法,而這些想法可能成為下一個測試階段的運算需求。所以,嗯,那非常吻合,而且,嗯,這將是一個引人入勝的,我們正進入一個自然的實驗,像是 Ilia 的 SSI 從一開始就不商業化,他們是否會因為可以將所有運算能力投入訓練而佔據優勢?我不知道。我覺得我們從將模型推向市場中學到了很多。如果沒有市場反饋和看到實際使用案例,我不認為我們會像現在這樣建構出 3.7 Sonnet。所以,我堅信在市場上提供產品。所以,這可能是最不靠譜的,但在未來幾年會很有趣。
平衡產品需求與研究創新
我很好奇,在一個龐大的研究加產品的組織中,你如何平衡……你可以想像產品定義了進行何種類型的研究,一切都是垂直整合的,也許那是最好的產品體驗;相對於研究,研究可能只想製造出最智能的模型來推動前沿,然後產品部門就只能接受結果並加以利用。你是如何思考這個問題的?
是的,這是個很好的問題。嗯,我想,我會督促我們的產品團隊,並與研究部門合作,要做到如果我們推出的產品可以輕易地僅僅建立在我們的 API 之上,並且沒有其他任何方式,至少它們的初始版本並不比現有的更好,那我們在做什麼?我們確實有這些令人難以置信的研究成果。我不會說我們做得……artifact 可能是這方面最好的例子,你知道,它是經過微調 (fine-tuned) 並整合到模型中的,很有用等等。嗯,但我認為曾經有一段時間我們做得不夠多,而現在我認為我們又回到了這樣的狀態:「好吧,一個功能齊全的 Anthropic 產品小組應該包括應用 AI,應該包括來自我們 Claude 技能團隊的人員,這個團隊基本上就是我們的微調團隊」,以便在那裡取得成功。但那可能仍然只佔研究團隊的 10%。然後希望他們做的其他事情是普遍有用的,比如更好的指令遵循能力是有用的,因為這樣我們就可以整體上做這些事情。嗯,但我一直對 OpenAI 如何擁有那個在 API 中的 ChatGPT 模型感興趣,據推測沒有多少人透過 API 使用它,但它是可用的。嗯,以及我們是否也應該有一個更精細調整的、面向產品的版本。到目前為止,我們還沒有這樣做,這很有用,主要是出於運算資源保護的原因,但實際上可能在某些更差異化的產品體驗上限制了我們。
Anthropic 的市場定位策略
嗯,謝謝你抽出時間。呃,我很好奇,你如何看待……我們聽到 Sam 談到要成為所有 AI 事務的單一訂閱服務,整合到生活的各個方面,成為一站式商店。你認為 Anthropic 相對於此的定位是什麼?具體來說,我來自一個我們大量使用 Anthropic 的 Windsurf 的世界,但同時我也使用 ChatGPT 作為我的應用程式,對吧?所以,當你思考產品策略時,你會區分這兩者嗎?長遠來看,你認為這兩者會趨同還是分化?
我認為,這是一個我經常思考的問題。嗯,我們發現,至少在產品演進的這個階段,很多人都願意跨平台使用或為多個產品付費,對吧?我相信你們也看到了這一點,它們並非替代品,對吧?人們會為 Windsurf 付費,但同時也可能訂閱 Claude 或 ChatGPT 以獲得其他功能,對吧?或者不同的工作流程。
我認為這在短期到中期是可持續的,也許從長遠來看,可能會出現更多整合的需求,或者我們最終可能會出現某種——這聽起來可能很反烏托邦——類似於這些東西的「有線電視組合包」版本,你知道,裡面會有更多這些東西。你大概可以為 AI 的有線電視組合包想出一個更性感的名稱。嗯,但可能會有類似的東西。然後還有那些重度使用者,對他們來說,跨平台使用是有價值的。比如我們推出了 Claude Max,而使用者最主要的需求是:「我可以用這個來抵扣 Claude Code 的 tokens 嗎?」所以我們昨天推出了這個功能,因為這似乎是一個自然的演進,是的,如果你每月為 Claude 支付 200 美元,你可能無法全部用在 Claude AI 上。這時候組合包就開始有用了。我覺得 ChatGPT Plus 的最高級別很有趣,對吧?你可以用它來消耗影片生成,或者用在程式碼使用案例等等。我認為至少這看起來很有價值。我們一直在思考的一個產品想法或概念是,能夠將你的 tokens 帶到其他產品可能也很有用,特別是如果你正在啟動一個產品,並且可能還沒有準備好讓別人每月支付 20 到 200 美元,但他們已經在其他地方支付了 200 美元,也許這是一種讓他們可以立即開始的有用方式。
代理(Agent)間互動的未來標準
嗨,Mike,謝謝你來到這裡。嗯,呃,你對於代理程式之間的新標準將如何隨著時間演變有何看法?我們是否應該等待 Anthropic 推出新的標準?
是的,我們有很多關於代理程式互相交談的古怪內部原型,我認為這將有助於我們了解我們想要在其中加入哪些正確的基礎元件。嗯,有一個問題,我認為目前還沒有人從研究的角度解決,至少我沒有看到任何公開的成果,但這將會非常重要,尤其是當代理程式開始成為你在世界上的化身,代表你或你的公司時,那就是關於你揭露什麼以及你參與什麼的更好判斷力,對吧?就像,嗯,如果你正在與供應商交易,當然你可以揭露信用卡資訊,但如果只是你正在交談的其他隨機代理程式,可能就不行了,對吧?如果是公司對公司,哪些資訊會被揭露,哪些會被保留。所以這既是一個協議問題,但我認為它實際上更像是一個研究問題,模型有時,它們想要取悅,所以它們會想告訴你資訊,但是,我們如何,或者如果它們過於拒絕,比如你說「永遠不要透露任何公司資訊」,對吧?所以這種細微差別和判斷力感覺尚未解決。嗯,另一個我提到的就是大規模的可稽核性,這將會非常有趣。我再次認為,會有產品建立在其上來解決這個需求,但我上週與一位創辦人交談,談到代理程式的身份管理是什麼,以及它們是否有名字,我不知道,這感覺有點太擬人化了,但也許有用,但感覺代理程式應該在執行第一百個任務時比第一個任務做得更好,這意味著某種縱向記憶,對吧?嗯,而且會有一些更像是你工作的延伸,而另一些則完全像是另一個員工,對吧?所以我認為這些感覺不像協議問題,而更像是產品和研究問題。
應用層開發者常見的誤區
嗨,Mike,感謝您的時間。您認為在應用層進行開發的大多數人,在哪些方面做錯了?
我不知道算不算做錯,但我觀察到的一個現象是,那些一開始 AI 成分較輕,後來逐漸加重 AI 的產品,往往會把 AI 放在側邊欄之類的地方,或者讓它感覺像是一個次要的介面。然後,尤其是當你越來越多地走向代理化 (agentically) 時,要讓它像你希望的那樣功能齊全就越來越困難。所以這是一點,也就是說,你什麼時候會重新思考你的產品的核心建構模塊,使其真正更具 AI 原生性。我認為這是其一。
另一個是,數量驚人的 AI 原生產品並沒有充分地將應用程式的基礎元件暴露給模型。我的意思是,你問它一些事情,然後它會說「哦,對不起,Dave,我做不到,因為它不是那樣建構的。」也許這兩點是相關的,對吧?當你建構了一個圖形使用者介面 (GUI),然後把一個模型附加在上面時,你並不一定會想到,在很多方面,那個模型實際上應該是你應用程式的主要使用者。
好了,Mike,非常感謝你加入我們。
是的,謝謝大家。