原文連結: Anthropic's CPO on what comes next | Mike Krieger (co-founder of Instagram)
今天我的來賓是 Mike Krieger。Mike 是 Anthropic 的產品長,該公司開發了 Claude。他也是 Instagram 的共同創辦人。他是我最喜歡的產品建構者和思想家之一。
他現在也在世界上最重要的公司之一領導產品部門,我很高興有機會在 podcast 上與他暢談。
我們聊了自從他加入 Anthropic 以來,他在 AI 能力方面改變最多的看法是什麼,以及當 90% 的程式碼由 AI 編寫時(這現在是 Anthropic 的情況),產品開發會如何改變以及瓶頸會在哪裡出現。
此外,他對 OpenAI 與 Anthropic 的看法、MCP 的未來、他為何關閉他最後一個新創公司 Artifact 以及他對此的感受。還有,隨著 AI 的興起,他鼓勵他的孩子們培養哪些技能。最後,我們以 Claude 想讓我分享給 Mike 的一段非常暖心的訊息結束了 podcast。
非常感謝我的電子報 Slack 社群提出了這次對話的主題。如果你喜歡這個 podcast,別忘了在你的常用 podcast app 或 YouTube 上訂閱和追蹤。
Mike,非常感謝你今天來到這裡,歡迎來到 podcast。
Mike Krieger: 我很高興來到這裡。我期待這件事已經很久了。
Lenny Rachitsky: 哇,我很高興聽到。我也期待這件事很久了。我有很多話要說。首先,你來到 Anthropic 已經一年多了。順帶一提,恭喜你撐過了一年門檻。
Mike Krieger: 謝謝。我們才沒有在數日子。
Lenny Rachitsky: 沒錯。所以我想問你這個問題。你來到 Anthropic 已經大約一年了。從你加入 Anthropic 之前到今天,關於 AI 的能力以及 AI 的發展方向,有什麼事情是你改變了看法的?
Mike Krieger: 有兩件事。一個是速度和時間線的問題。另一個是能力的問題。所以也許我先說第二個。
我剛來的時候有一個想法,像是「是的,這些模型很棒,它們將能夠生成程式碼,希望最終能夠用你的語氣寫作,但它們是否能夠有獨立的意見?」實際上,只有在過去一個月,而且只有在 Opus 4 發布後,我的看法徹底改變了。
在過去這一年裡,Claude 一直是我的首選產品策略合作夥伴。我會寫一份初步的策略,基本上會分享給 Claude,然後讓它檢視。過去,它會留下一些平淡無奇的評論,像是「喔,你有沒有想過這個?」而我心裡會想「是的,我已經想過了。」Opus 4 是第一個,我在做我們下半年的策略時使用它。那是 Opus 4 結合我們的先進研究的成果。
它真的思考了很久,然後回覆我的時候,我覺得它真的以一種全新的方式來看待這個問題。
所以這大概是我最大的轉變,我不知道「獨立」是不是正確的詞,但相較於我原本的思考方式,AI 展現了創造力和思想的新穎性。
但在時間線方面,這非常有趣,因為我昨天坐在 Dario 旁邊,他說:「我一直做這些預測,人們一直嘲笑我。然後它們都實現了。」這種事情一再發生很有趣,他說:「並非所有預測都是對的。」
但即使我認為在去年,他在談論我們在 SWE-Bench(這是一個衡量模型編碼能力的基準)上達到了 50%。他說:「我想我們到 2025 年底左右會達到 90%。」
果然,我們現在用新的模型已經達到了大約 72%,而他做出預測時是 50%。而且它一直按照預期持續擴展。所以我現在對時間線更加認真看待了。我不知道你是否讀過《AI 2027》...
Lenny Rachitsky: 我讀過,它讓我很緊張。
Mike Krieger: 我經歷了一件非常奇特的事情,我有兩個分頁開著,一個是《AI 2027》,一個是我的產品策略,就在那一刻我心想:「等等,我是故事裡的那個角色嗎?這兩者有多麼吻合?」但是你讀到那篇文章會想:「喔,2027 年,那還有好幾年呢。」如果你再讀一遍,會覺得:「不,那是 2025 年年中。」
而且事情會持續改進,模型也持續能夠做越來越多事情,它們能夠自主行動,能夠擁有記憶,也能夠長時間運作。所以我認為我對時間線的信心,我不知道具體會如何實現,但這一年來確實更加堅定了。
對 AI 能力和時間線的看法轉變
Lenny Rachitsky: 哇。我沒想到你會談到那個文件,那篇文章很嚇人。我很好奇,我忍不住想問,對於那篇文章描繪的 AI 變得非常聰明後可能出現的可怕情境,我們該如何避免?
Mike Krieger: 是的,這也許與我為什麼加入 Anthropic 的原因有關,我已經在這裡一年了。我當時正在觀察模型變得越來越好,甚至在 2024 年初就能看到,我看著我的孩子,心想:「好吧,他們將在一個有 AI 的世界中長大。這是無法避免的。」
我能在哪裡最大限度地投入我的時間,來推動事情朝著好的方向發展?這也是整個產業,特別是在 Anthropic,很多人都在思考的問題。所以,我認為達成共識並建立一個共享的框架和理解,關於「好的發展」是什麼樣子?
我們想要什麼樣的人類與 AI 關係?我們沿途會如何知道?我們沿途需要建構、發展和研究什麼?我認為這些都是關鍵問題。
其中有些是產品問題,有些是研究和可解釋性問題,但對我來說,加入的最大理由是:「好吧,我認為 Anthropic 在推動事情朝著更好的方向發展方面可以做出很多貢獻。如果我能在其中扮演一個角色,那就去做吧。」
Lenny Rachitsky: 我喜歡那個答案。說到孩子,你有兩個孩子,我有一個年幼的孩子,他快滿兩歲了。我很好奇,隨著 AI 越來越成為我們的未來,一些工作將會改變,你鼓勵你的孩子們培養哪些技能?對於這個問題你有什麼建議?
AI 時代下應培養的技能:好奇心與獨立思考
Mike Krieger: 我們每天早上都會和孩子們一起吃早餐,有時候會出現一些問題,關於物理學之類的,我們最大的孩子快六歲了,他們會用六歲孩子的方式問一些有趣的關於太陽系或物理的問題,在我們尋求 Claude 的幫助之前,因為起初我的直覺是:「喔,我想知道 Claude 會如何回答這個問題。」
我們開始改變方式,變成了:「那我們該如何找到答案?」答案不能只是「我們問 Claude」,好吧,我們可以做這個實驗,我們可以做這件事。
所以我認為培養好奇心,並且仍然保有某種,我不知道,科學方法的概念聽起來對於一個六歲孩子來說太過宏大,但那種探索、提問,然後系統地深入研究的過程,我認為仍然很重要。
當然,AI 將成為解決大部分問題的絕佳工具,但我認為那種探究的過程仍然非常重要,還有獨立思考。我最喜歡和我孩子相處的時刻是,因為她非常固執,我們六歲的女兒,她說了一件事,我不確定是不是真的。
那件事是關於珊瑚是不是動物或者珊瑚是否活著?我甚至不記得細節了。我當時說:「我不確定那是不是真的。」她說:「爸爸,那絕對是真的。」我心想:「好吧,我們來問問 Claude 關於這個問題。」她說:「你可以問 Claude,但我知道我是對的。」
我喜歡那樣。我想要那種程度的,不只是將你所有的認知都委託給 AI,因為它並非總是對的。而且那也會在某種程度上中斷任何形式的獨立思考。所以提問、探究和獨立思考的技能,我認為這些都是關鍵的部分。
至於從工作或職業的角度來看會是什麼樣子,我只是保持開放的心態,我相信從現在到那時,情況會發生巨大變化。
Lenny Rachitsky: 這很有趣。Shopify 的 CEO Tobias Lütke 在 podcast 上也是一樣的答案,他鼓勵他的孩子們培養的是好奇心。所以這是一個有趣的共同點。
Mike Krieger: 我們孩子讀的從幼兒園到八年級的學校請來了一位 AI 與教育專家,我對這次對話的期望很低。
事實上,我認為這場對話可能超出了在場大多數人的理解範圍,因為他說:「好吧,讓我帶你們回溯到 Claude Shannon 的資訊理論。」
我可以看到人們的眼睛開始游移,心想:「我到底報名了什麼,為什麼我會在學校禮堂裡聽關於資訊理論的講座?」
但他做得很好,我認為他也很好地讓我們想像到將會有不同的工作存在,而我們並不知道這些工作是什麼,所以重要的是培養那些技能和技術,並保持開放的心態,去理解我們如何重新組合這些東西的具體方式。
即使是這些方式,從現在到他們 18 歲之間,可能也會改變三次。
AI 在程式碼生成中的應用:從零到 90%
Lenny Rachitsky: 我們正在談論時間線和事物的變化。我看過你分享的這些統計數據,以及 Anthropic 的其他人分享的關於你們有多少程式碼現在是由 AI 編寫的。人們分享的數據從 70% 到 90% 不等。
一位工程師主管分享說,你們大約 90% 的程式碼現在是由 AI 編寫的,這首先就很瘋狂,它從零到 90%,我不知道,幾年時間吧,是的,基本上是這樣。我不認為人們對此談論得夠多。這太瘋狂了。
你們基本上處於最前沿。我從未聽說過有公司有這麼高比例的程式碼是由 AI 編寫的。所以你們處於事物發展的前沿。我認為大多數公司最終都會達到這個狀態。
知道你們有這麼多程式碼現在是由 AI 編寫的,這如何改變了產品開發?通常是產品經理提出要建構的東西,工程師建構它,然後發布。
現在仍然大致如此,還是產品經理直接去找 Claude,讓它幫我建構這東西,工程師則做著不同的事情?在一個 90% 程式碼由 AI 編寫的世界裡,有什麼看起來不一樣的地方?
Mike Krieger: 是的,這非常有趣,因為我認為工程的角色改變了很多,但是組成一個產品的人員組合卻還沒有改變。而且在很多方面,我認為情況更糟,因為我們仍然抱持著一些假設。
所以我認為角色仍然相當相似,儘管我們現在會看到我最喜歡的事情發生,就是一些有想法想要表達的好的產品經理或設計師會使用 Claude,甚至使用 Artifacts 來組裝一個實際的功能性演示。
這非常有幫助。不,不,這就是我的意思,這讓它變得具體。這可能是最大的角色轉變,就是在流程的早期,透過這種程式碼加設計的方式進行原型設計。
然而我學到的是,知道要問 AI 什麼、如何組織問題、如何思考前後端之間如何調整結構的過程。這些仍然是非常困難和專業的技能,它們仍然需要工程師去思考。
我們非常快速地在其他方面遇到了瓶頸,例如我們的合併隊列(merge queue),這是排隊等待你的變更被系統接受,然後部署到生產環境的過程。
我們不得不完全重新設計它,因為有太多程式碼被編寫,並且提交了太多 pull requests,這完全超出了預期。
所以這就像,我不知道你是否讀過那本經典的流程最佳化書籍《目標》(The Goal),你意識到有這個關鍵路徑理論。我只是在我們的系統中發現了所有這些新的瓶頸,有一個上游瓶頸,那就是決策和協調。
我現在正在思考很多事情,就是如何提供最小可行策略,讓人們感覺有能力去執行、去輸入、去建構、去探索模型能力的邊緣。我認為我還沒有做到這一點,但這是我正在努力的事情。
然後當建構正在進行時,其他瓶頸就會出現,確保我們不要互相干擾。提前仔細考慮所有邊緣情況,這樣我們就不會在工程方面受到阻礙。
然後當工作完成並準備發布時,所有那些瓶頸是什麼?讓我們做好變更發布的空中交通管制。我們如何制定大型策略?
所以我認為今年以前,這些方面沒有受到那麼多壓力,但我想一年後,我們構思、建構和發布軟體的方式會發生很大變化,因為以目前的方式進行會非常痛苦。
AI 編寫程式碼帶來的瓶頸與流程變革
Lenny Rachitsky: 哇,這非常有趣。所以過去是,有個想法,我們去設計、建構、發布、合併,然後發布。通常瓶頸是工程師需要時間來建構東西,然後是設計。
現在你說你發現的兩個瓶頸是決定建構什麼以及協調所有人,然後實際上是合併到生產環境的隊列。我想審查可能也是其中的一部分——
Mike Krieger: 審查也真的改變了。而且在很多方面,也許不足為奇,工作方式最未來化的團隊是 Claude Code 團隊,因為他們使用 Claude Code 來建構 Claude Code,這是一種非常自我改進的方式。
在這個專案的早期,他們會像對待任何其他專案一樣進行非常詳細的 pull request 審查。他們意識到 Claude 通常是正確的,並且它產生的 pull request 可能比大多數人能夠審查的還要大。
所以你能不能使用另一個 Claude 來審查它,然後讓人類進行更像是驗收測試而不是逐行審查。這絕對有優點和缺點,到目前為止進展順利。
但我也能想像到它脫軌的可能性,然後有一個完全無法維護甚至連 Claude 也無法理解的程式碼庫,這種情況還沒有發生,但是看著他們改變他們的審查流程,這確實很有趣。
是的,合併隊列是下面形成的瓶頸的一個例子,但還有其他瓶頸,那就是我們如何確保我們仍然在建構一個連貫的東西,並將其打包成一個我們可以與人們分享的時刻,無論是圍繞著發布時刻,還是關於讓人們能夠使用這個東西並談論它,建構對人們有用的東西,然後讓大家知道你已經建構了它,然後從他們的回饋中學習的經典過程仍然存在。
我們只是讓整個過程中的一部分變得更有效率。
Anthropic 作為「零號病人」的經驗
Lenny Rachitsky: 我聽你形容你們是這種工作方式的「零號病人」。
Mike Krieger: 是的。
Lenny Rachitsky: 我喜歡這個說法。你大概知道 Claude Code 的程式碼有多少百分比是由 Claude Code 編寫的嗎?
Mike Krieger: 到這個時候,如果不是 95% 以上,我會很震驚。我得問 Boris 和其他技術主管。但很酷的是,一些細節部分,Claude Code 是用 TypeScript 編寫的。它實際上是我們最大的 TypeScript 專案。
Anthropic 的其他大部分程式碼是用 Python 編寫的,現在也有一些 Go 和 Rust,但我們不是一個專門使用 TypeScript 的公司。
所以我昨天在我們的 Slack 中看到一個很棒的評論,有人遇到了一個讓他們對 Claude Code 頭痛的問題,他們說:「好吧,我一點也不懂 TypeScript,我只是要和 Claude 談談,然後讓它來做。」
然後他們從那個狀態,在一個小時內就完成了 pull requests,解決了他們的問題,而且他們提交了一個 pull request,這打破了藩籬。首先,這降低了任何新加入專案的人的門檻。我認為這讓你可以為不同的工作選擇合適的語言。
我也認為這有幫助,但我認為這也強化了 Claude Code 作為這個領域的「零號病人」,外部團隊的貢獻也可以透過 Claude Code 來完成。
Lenny Rachitsky: 哇,這真是,你分享的這些事情一直在顛覆我的認知,大約 95% 的 Claude Code 是由 Claude Code 編寫的。
Mike Krieger: 這是我猜測的。是的,我會再確認實際數字。但我是說,如果你問團隊,他們的工作方式就是這樣,而且他們也透過這種方式獲得來自公司各處的貢獻。
上下游瓶頸與 MCP 的潛力
Lenny Rachitsky: 有趣的是,回過頭來看你關於 Claude 協助制定策略的觀點,以及你關於現在很多瓶頸是來自於構思和協調的頂端的部分,有趣的是 Claude 也已經在協助這方面了,幫助你決定建構什麼。
所以如果這兩個瓶頸是協調和決定建構什麼,然後只是合併和處理所有事情,你認為最有趣的事情會發生在哪裡,可以幫助你加速這些事情?
Mike Krieger: 是的,我認為在第一個方面,我今年年初寫了一份文件,內容基本上是我們今天如何進行產品開發,以及 Claude 在哪些方面還沒有出現,而它應該出現?我認為上游的部分是下一個會改變的。這很有趣。
在你的會議上,我和一個正在研究 PRD(產品需求文件)生成式 AI 的人聊過,我想是 ChatPRD,那是——
Lenny Rachitsky: ChatPRD,對。
Mike Krieger: 是的。Claude 能否成為一個夥伴,幫助我們確定要建構什麼?如果你想這樣處理,市場規模是多少?如果你從另一個角度看,用戶需求是什麼?
我們在 Anthropic 思考了很多關於「虛擬協作者」的概念,我認為其中一種呈現方式是:「嘿,我在 Discord 裡,Claude Anthropic 的 Discord,我在用戶論壇裡,我在 X 上,我正在閱讀一些東西,這些是新興的趨勢。」這是第一步。目前的模型可以做到這一點。
第二步,模型現在可能已經可以做到,但我們需要將它們串連起來,那就是:不僅僅是找出問題所在,還要思考你可能如何解決它們。
然後再進一步,我提交了一個 pull request 來解決我看到的這件事,感覺今年內非常有可能實現,將這些東西串連起來,我們更多地受到限制。這就是為什麼 MCP 對我來說很令人興奮。
我們更多地受限於確保上下文能夠在所有這些過程中流動,以便我們能夠正確地存取這些東西,而不是模型推理和提出建議的能力。
現在模型可能還沒有完美的 UI 品味,所以設計肯定還有介入的空間,會說:「喔,這不是我解決這個未顯示問題的確切方法。」但這讓我非常興奮。
我可以給你一個很小的例子,但我們在 Claude AI 上做了一個改變,你應該能夠直接從 Artifacts 複製 markdown 或程式碼,我們把它改成了你可以實際下載和匯出。我們把按鈕改成了匯出,然後收到了很多回饋,像是:「現在我該如何複製?」
答案是,你點擊下拉選單,然後它就複製了。這就是其中一個我們覺得很有道理,但可能做得不太對的地方。那個回饋在 RUX 頻道裡。
我會很高興一個小時後 Claude 能夠回覆:「嘿,如果我們想改回去,這裡有個 PR 可以做。」順帶一提,最終,我會啟動一個 A/B 測試來看看這是否改變了指標,然後我們看看一個星期後是什麼樣子。
如果你一年前半告訴我這些,我會覺得:「啊,是的,也許是 27 年,也許是 26 年。」但現在感覺真的就在能力的邊緣。
產品團隊的轉變與研究合作
Lenny Rachitsky: 哇,好的。你提到了 Lenny and Friends Summit。我想稍微談談這個。你和 OpenAI 的 CPO Kevin Weil 一起參加了一個座談,我想這可能是你們第一次這樣做,也許是目前為止的最後一次。
Mike Krieger: 是的,我們之後沒有再一起做過,沒有特別的原因。我玩得很開心。
Lenny Rachitsky: 我們在那裡組建了一個多麼傳奇的座談小組,由 Sarah Guo 主持。
你提到了這個評論,它實際上成為了採訪中被重看最多的部分,那就是你把產品人員放在模型團隊,與研究人員合作改進模型,然後你把一些產品人員放在產品體驗部門,改進使用者介面,讓一切變得更好。
你發現幾乎所有的效益都來自於產品團隊與研究人員的合作。所以你一直在做更多這樣的事情。首先,這是否仍然是真實的?其次,這對產品團隊有什麼影響?
Mike Krieger: 這仍然是真實的。事實上,我認為如果這個比例已經偏向於更多這種嵌入式工作,我只是越來越堅信。在峰會期間我還沒有這麼強烈的感覺,但現在我的感覺非常強烈。
如果我們發布的東西是任何人都可以透過現成的模型建構出來的,順帶一提,利用我們的現成模型確實可以建構出很棒的東西,請不要誤解我的意思,但是我們應該涉足並能夠獨特地做的事情,應該是真正處於兩者之間神奇交集的東西,對吧?
Artifacts 是一個很好的例子,如果你使用 Claude 4 搭配 Artifacts,這是一個非常有趣的例子,我們找來了我們團隊中的一個人,我們有一個 Claude Code 技能團隊,他們專注於進行後訓練,以教導 Claude 一些非常特定的技能,我們將其與一些產品人員配對,然後我們一起修改了這個功能在產品中的呈現方式,以及 Claude 能做到的程度遠遠超過只是「是的,我們只是使用了模型並稍作提示」。
這遠遠不夠。我們需要參與到微調的過程中。
你看看我們目前正在進行的工作,以及我們最近發布的介於研究和所有這些其他事情之間的東西,這些事情在 Anthropic 的工作單位不再是「取得模型,然後與設計和產品合作去發布一個產品」。
它更像是我們參與到關於這些東西應該如何運作的後訓練對話中,然後我們參與到建構過程中,並且我們將這些東西反饋回去並循環。我認為這很令人興奮。
這也是一種新的工作方式,並非所有產品經理都具備,但那些從研究和工程師那裡獲得最多內部正面回饋的產品經理,就是那些理解了這種模式的人。我昨天參加了一個產品審查會議,我說:「喔,如果我們想做這個記憶功能,我們應該和研究人員談談,因為我們剛剛在 Claude 4 中發布了一系列記憶能力。」
他們說:「是的,是的,我們已經和他們談了好幾個星期了,這就是我們如何實現它的方式。」我就想:「好的,我感覺不錯。我感覺我們現在做對了事情。」
AI 時代產品團隊的角色與價值
Lenny Rachitsky: 那麼讓我繼續這個話題,這是我一直在思考的一件事。基本上,Anthropic 的很大一部分工作是建構這個超級智慧的巨大腦袋,它將隨著時間的推移為我們做所有事情。
然後,如你所說,還有產品團隊,他們正在這個超級智慧巨大腦袋的周圍建構使用者介面。隨著時間的推移,這個超級智慧將能夠建構它自己的東西。所以我想,從長遠來看,你認為傳統產品團隊最有價值的部分將來自哪裡?
我知道這與眾不同,因為你們是一家基礎模型公司,大多數公司不是這樣運作的,但你對於隨著時間推移,產品團隊在 AI 工作中會從哪裡獲得最多價值有什麼想法?
Mike Krieger: 我認為在兩件事上仍然有很多價值。一是讓這一切變得可以理解。我認為我們做得還可以,但我們可以做得更好,讓這一切更容易理解。現在能夠在工作中熟練使用這些工具的人和大多數人之間的差距仍然巨大。
也許這就是對你早期問題最直接的答案,關於學習哪些技能。這就是一個需要學習的技能,並學會使用它,就像我記得我讀中學時上電腦課一樣。
我記得我當時很擅長 Google 搜尋,那在那時候確實是一種技能,學會從「這些資訊就在那裡,我該如何查詢?」的角度思考。我認為那在當時確實是一種優勢。
當然,現在 Google 非常擅長弄清楚你想要做什麼,即使你只是在大概的範圍內,對於研究的需求已經減少了。
但我仍然認為,這是良好產品開發的必要部分,也就是能力的確存在,即使 Claude 可以從頭開始創造產品,你正在建構的是什麼?你如何使其易於理解?這仍然很困難,因為我認為這觸及到對人類需求和心理更深層次的同理心和理解。
我大學主修的是人機互動,我現在還在談論這個。我仍然覺得這是一個非常非常非常必要的技能。所以這是一點。
二是,這直接呼應了你的另一位來賓,策略,我們如何取勝,我們將在哪裡競爭,弄清楚你究竟想在所有可能投入時間、資源或計算力的事物中,實際上去做什麼。
你可能可以比以前涉獵更廣,但你不可能做所有事情。即使從外部看,如果你被認為正在做所有事情,那麼你的定位就會模糊不清。我認為策略仍然是第二個關鍵部分。
然後第三點是,讓大家看到可能性,這可以說是讓事物變得易於理解的延續。我們最近與一家金融服務公司進行了一次演示,我們正在展示如何結合使用我們的分析工具和 MCP,你可以看到他們的眼睛亮了起來,心想:「啊,好的。」
我們稱之為「懸滯」(overhang)。模型和產品能夠做到的與它們在日常生活中被使用的程度之間的差距巨大。這種懸滯很大。所以這就是產品仍然扮演著非常非常重要的必要角色的地方。
與 Claude 互動的提示技巧
Lenny Rachitsky: 好的,這個答案太棒了。
所以基本上,產品團隊可以更深入發展的領域是策略,只是在策略上做得越來越好,弄清楚要建構什麼以及如何在市場上取勝,讓人們更容易理解如何利用這些工具的力量,也就是可理解性,以及與此相關的是,讓大家看到這些事物的潛力。
這就是產品仍然可以發揮作用的地方。
Mike Krieger: 完全正確。
Lenny Rachitsky: 太棒了。那麼,關於這一點,你是否有任何提示技巧可以分享,一些你學到的可以讓你與 Claude 聊天時獲得更多收穫的方法?
Mike Krieger: 有時候這很有趣,因為在某些方面,我們有終極的提示工作,那就是為 Claude AI 編寫系統提示,而且我們發布了所有這些提示,我認為這也是透明度的一個很好的方面。
而且我們總是謹慎地給予提示建議,因為至少在官方層面,但我就告訴你非官方的版本,因為你不想讓事情變成「我們認為這有效,但我們不知道為什麼」。
但我會做一些小事情,比如在 Claude Code 中,我們實際上非常字面地回應這個,但我總是要求它,如果我希望它使用更多推理,我會讓它「努力思考」(think hard),它就會使用不同的流程,我通常會以這個開頭。
這有點像是推動。有一篇很棒的文章是關於「犯另一種錯誤」(make the other mistake),例如如果你傾向於太過友善,你能不能專注於... 即使你試圖變得更批判或更直率,你可能也不會成為世界上最批判或最直率的人。所以對於 Claude,有時候我會說:「殘酷點,Claude,狠狠地批評我。
告訴我這個策略有什麼問題。」我知道我們之前談到 Claude 作為思考夥伴來批判產品策略。我之前可能會說:「這份產品策略還有什麼可以改進的地方?」而我現在就直接說:「狠狠地批評這份產品策略,」而 Claude 是一個相當友善的實體。
很難推動它變得極度殘酷,但這會迫使它變得稍微更批判一些。最後我想說的是,我們有一個名為 Applied AI 的團隊,他們與我們的客戶合作很多,針對他們的用例來最佳化 Claude。
我們基本上汲取了他們的洞察和工作方式,並將其融入到一個產品本身中。
所以如果你去我們的 console,我們的 work bench,我們有一個叫做「提示改進器」(Prompt Improver)的東西,你描述問題,並提供範例,Claude 本身會以代理的方式為你創建並迭代一個提示。
我發現從中得出的結果與我對一個好提示的直覺截然不同。
所以我鼓勵大家也去看看那個工具,即使是為了他們自己的用例,因為雖然那個工具是針對將提示放入其產品的 API 開發者,但對於自己寫提示的人來說,它同樣適用。它會插入人類事前想不到的 XML 標籤。
這實際上對於 Claude 理解它應該思考什麼以及它應該說什麼非常有幫助,等等。所以這是另一個建議:觀察我們的提示改進器,然後注意到 Claude 本身就是一個非常好的 Claude 提示者。
Rick Rubin 與「氛圍編碼」
Lenny Rachitsky: 太棒了。好的,我們會提供那個提示改進器的連結。你早期分享的核心建議就是做你自然而然會做的相反的事情。所以如果你想友善點,那就殘酷點,對我非常誠實和直率。
Mike Krieger: 完全正確。我發現這很有效。我陷入了哪些思維模式,而你希望打破這些模式?
Lenny Rachitsky: 我看到你們今天好像剛推出了一個與 Rick Rubin 合作的項目,叫做「氛圍編碼」(vibe coding)。那是怎麼回事?
Mike Krieger: 我聽說了這件事。再說一次,這周有很多事情匯聚在一起,包括模型發布、開發者活動和《程式之道》(The Way of Code)。
我們的一位共同創辦人 Jack Clark 是我們的政策主管,他與 Rick Rubin 取得了聯繫,我想是因為 Rick 一直在思考編程、編程的未來和創造力,所以他們保持聯繫。
Rick 對這個想法感到興奮,他當時正在用 Claude 創作藝術和視覺化作品,然後他對「氛圍編碼之道」有了這些想法,他們就一起創作了這個東西。我喜歡 Rick Rubin 的幾乎所有作品,所以這個美學觀點我也非常認同。
但是,是的,這種有點像冥想,冥想可能是更恰當的詞。關於創造力,與 AI 合作,再加上這些非常豐富、有趣的視覺化作品。這是內部人員說:「喔,是的,我們正在與 Rick Rubin 合作。」我們當時都想:「我們正在做什麼?這太棒了。」
我很高興 Andrew Luo 今天加入我們。Andrew 是 OneSchema 的 CEO,OneSchema 是我們長期的 podcast 贊助商之一。歡迎 Andrew。
來賓: 謝謝你邀請我,Lenny。很高興來到這裡。
Lenny Rachitsky: OneSchema 有什麼新動態?我知道你與我最喜歡的一些公司合作,比如 Ramp、Vanta 和 Watershed。我聽說你們推出了新的數據輸入產品,可以自動化團隊在匯入、映射和整合 CSV 和 Excel 文件時花費的數小時手動工作。
來賓: 是的,我們剛剛推出了 OneSchema FileFeeds 的 2.0 版本。我們用 AI 將其從零開始重新建構。我們看到許多客戶的數據工程師團隊,在處理清理凌亂的試算表所需的手動工作時遇到了困難。
FileFeeds 2.0 允許非技術團隊僅需一個簡單的提示,即可自動化轉換 CSV 和 Excel 文件的過程。我們支援所有最棘手的檔案整合,SFTP、S3,甚至電子郵件。
Lenny Rachitsky: 我可以告訴你,如果我的團隊必須建構這樣的整合,能夠將它從我們的路線圖中移除,轉而使用像 OneSchema 這樣的東西,那該有多好。
來賓: 當然,Lenny。我們聽過很多因為交易、員工檔案、採購訂單等文件中即使只有一個錯誤記錄而導致系統中斷的可怕故事。偵錯這些問題通常就像大海撈針。
OneSchema 阻止任何錯誤數據進入你的系統,並自動驗證你的檔案,生成錯誤報告,顯示所有錯誤檔案中的確切問題。
Lenny Rachitsky: 我知道匯入錯誤數據會給你的客戶帶來各種麻煩,並迅速失去他們的信任。Andrew,非常感謝你加入我。如果你想了解更多,請前往 oneschema.co。網址是 oneschema.co。
加入 Anthropic 的故事
實際上,回過頭來談談你在 Anthropic 的旅程開端,你是如何被招募到 Anthropic 的?其中有什麼有趣的故事嗎?
Mike Krieger: 這一切都始於,我實際上給我朋友發了這則簡訊。Joel Lewenstein,我認識他很久了,他和我一起在 2007 年 App Store 剛出來時建構了我們第一個 iPhone 應用程式,那時候你還能靠在 App Store 上賣一美元的應用程式賺錢。
我們當時都在 Stanford 一起讀書,我們是朋友,這麼多年來一直保持聯繫,但從那之後我們再也沒有一起工作過。我們只是保持著密切的關係。我剛結束 Artifact 的經驗,當時正在考慮,我是要再創一家公司嗎?我認為不會。
我需要從零開始創辦公司的休息一下。我是要去某個地方工作嗎?我不知道我想去哪家公司工作。然後他聯繫我,他說:「聽著,我不知道你有沒有考慮過加入某個團隊而不是自己創業,但我們正在找一個 CPO。你有興趣聊聊嗎?」
當時,Claude 3 剛剛推出,我心想:「好的,這家公司顯然有一個很好的研究團隊。產品仍然非常早期。」就像是,「太棒了,我會去開會。」我第一次見到 Daniela,她是 Anthropic 的共同創辦人兼總裁。
從一開始我就覺得她像一股清新的空氣,創辦人身上沒有什麼浮誇的氣質,我的意思是,他們對於自己正在建構的東西有清晰的認識,他們知道自己不知道什麼。我跟 Dario 談過多少次,Dario 總是說:「聽著,我對產品一竅不通,但這裡有一個直覺。」
通常這個直覺非常好,並能引發一些不錯的對話,但我認為那種智力上的誠實以及對於負責任地發展 AI 的共同觀點,引起了我的共鳴。
我一直有這種感覺,在這些面試中,這就是我希望如果我創辦一家 AI 公司會遇到的那家公司。這也設定了一個標準,如果我要加入某個團隊,那應該就是我要去的地方。
但我意識到,我基本上自大學第一次實習以來就沒有再加入過公司了。我就想:「喔,我該如何自我融入?我該如何快速上手?我該如何平衡大規模變革與理解整體上沒有出錯的部分?」
回頭看這一年,我覺得有些變革做得太慢了。我認為在重組產品方面,我可以更早做出改變。而且我沒有意識到有幾位非常關鍵的資深人員能在產品策略上產生多大的影響力。我會回想起 Claude Code。
Claude Code 的出現是因為 Boris,他實際上是 Boris Cherney,他曾是 Instagram 的工程師,也是我們在那裡的一位資深獨立貢獻者,我們有些交集,他從零開始內部啟動了那個專案,然後我們將其推向外部,最後發布了它。這就是一兩個真正強大的人的力量。
我犯了一個錯誤,我們需要更多的人員,我們確實需要,我認為還有更多我們需要做的工作,以及我想要建構的東西。
但更重要的是,我們需要一些幾乎是創辦人型的工程師,這也許可以連結到我們之前關於什麼技能有用以及產品開發如何改變的問題。
甚至更進一步,我是一個極度相信有想法的創始工程師/技術主管的人,只要為他們配備合適的設計和產品支持,幫助他們實現想法,我對此的信念比以前強了 10 倍。
Artifact 關閉的原因
Lenny Rachitsky: 我實際上在這次對話之前在 Twitter 上問了大家可以問你什麼。令人驚訝的是,最常見的問題是為什麼你關閉了 Artifact?我也想知道這個,因為我喜歡 Artifact。我是一個重度使用者。
我當時就想:「終於有一個我喜歡的新聞應用程式,它提供了我想要知道的內容。」所以我想問,最後到底發生了什麼?
Mike Krieger: 我也很想念它。我沒有找到替代品,我想我現在是透過訪問個別網站並保持這些網站的更新來取代它。
這真的不一樣,特別是在我們認為 Artifact 做對了的事情上,如果人們之前沒有用過它,那就是我們真的嘗試不只是推薦熱門新聞,雖然那也是一部分。
但如果你對日本建築感興趣,你每天幾乎都能看到關於日本建築的有趣報導。無論是來自 Dwell 或 Architectural Digest,或是我們發現的某人推薦給我們的非常特定的部落格。它捕捉到了一些 Google Reader 在內容發現方面的樂趣,尋找更深層次的網路內容。
我們遇到了一些逆風。其中一個是行動網站的狀況急轉直下。我並非責怪任何人,
我認為這是市場動態所致,但我們的設計師 Sky Gunner Gray(他現在在 Perplexity 工作,非常出色)花了這麼多時間在應用程式體驗上,我非常自豪,但當你點擊進去時,這些行動網站和行動出版商的壓力很大,像是「訂閱我們的電子報。
這裡有一個全螢幕的影音廣告。」這感覺非常不和諧,我們不覺得進行大量廣告封鎖在道德上是合理的,因為這樣你會覺得:「當然,你可以為用戶提供良好的體驗,但这感覺對出版商不公平。」
但同時,實際體驗也不好。所以行動網路的惡化,這讓我非常難過,但我認為這是其中一部分原因。第二個原因是 Instagram 早期的傳播,是因為人們會拍照,然後發布到其他社交網路,並告訴朋友。
那是一種非常自然的:「你是怎麼做到的?我也想試試看。」新聞是非常個人化的。我無法告訴你有多少人會說:「我愛 Artifact。」我會問:「你告訴過任何人嗎?」他們會說:「我告訴過一個人。」它沒有那種傳播力。
我們任何嘗試去做的傳播都感覺有點做作,像是「喔,我們會把所有連結包裝在 artifact.news 裡。」但我們不想要中間插頁。
在某些方面,這聽起來很清教徒式的,但我並非想表達這個意思,只是有些界線是我們不願意跨越的,這些界線在道德上感覺與我們不符,而我看到其他新聞平台做得更多。
也許如果我們做了那些事情,它會成長得更多,但我認為這不是我們想要建構的那種公司。我也不認為我們是適合建構它的創辦人。
第三個,也是一個被低估的原因,就是我們是在 COVID 期間開始的,這意味著我們是完全分佈式的,我認為我們原本想要在策略、產品和團隊上進行重大調整,但如果你是完全遠端工作,這真的很難做到。
沒有什麼能取代 Instagram 時代的日子,我們經歷過一些艱難時期,就像 Ben Horowitz 所說的「我們完了,結束了」那種時刻。這絕對是第二類型的樂趣。
我不會說那些是我最喜歡的回憶,因為它們並非快樂的回憶,但有一些在 Instagram 時期我一直記得的回憶,就像我和 Kevin 在 Market Street 上的 Taqueria Cancun,晚上 11 點吃著墨西哥捲餅,互相問著:「我們該如何擺脫困境?我們該如何度過這個難關?」
Zoom 並不能很好地複製那種感覺。你傾向於放任一些事情,或者事情會隨著時間累積。所以這三個因素的匯聚,我們進入了 2024 年,然後說:「聽著,這個領域確實可以建構一家公司。我不確定我們是否是能夠建構它的人。
這個現行的版本我們很喜歡,但它並沒有成長。」我把它說成是,投入 10 個單位的努力,只得到 1 個單位的成果,而不是反過來。
如果我們傾注心血打造產品並發布讓我們引以為傲的東西,而指標幾乎沒有變動,那麼這款產品、這個系統中就沒有那股能量。
那麼,我們是再花一兩年時間,然後再去募資,結果發現情況還是如此,還是我們就此打住,看到它已經走完了它的歷程,並嘗試為它找到歸宿等等。
所以這些因素匯聚在一起,而且開始感覺到機會成本,AI 開始改變一切。我們有一個由 AI 提供支援的新聞應用程式,但這是否是我們能夠最大程度地影響這個領域的方式?感覺答案越來越否定。但這很困難。
我是說,最終我對於這個決定感到很平靜,但這是一個持續了幾個月的討論。
關閉 Artifact 的心路歷程
Lenny Rachitsky: 關於這一點,那有多難呢?因為這涉及到自尊心,像是:「喔,我正在創辦我的新公司,它會很棒的。」然後最終你不得不將它關閉。作為一個非常成功的前創辦人,關閉一個沒有成功的事情有多難?
Mike Krieger: 是的,我是說,我認為當我們開始創辦它時,其中一個討論是:「聽著,這裡成功的標準是什麼?我們是否希望它與 Instagram 的日活躍用戶(DAU)不同?」這是一個不可能達到的標準。
自那之後,可能只有一兩家公司,你可以說可能是 ChatGPT 和 TikTok,達到了那種大眾消費者的普及程度。而創辦一個新聞應用程式,大多數人甚至不是每天都閱讀新聞,對吧?
所以我們知道,至少在第一個版本中,我們沒有追求那麼大的用戶量,但我們確實有一個想法,就是隨著時間的推移,建構出一些相輔相成的產品,這些產品都使用個人化和機器學習。當時我們甚至沒有稱它為 AI。那是 2021 年...
Lenny Rachitsky: 對,對,那時候 AI 還被稱為機器學習。
Mike Krieger: 是的,那時候還被稱為機器學習。所以,在關閉它時,你看到用戶增長和吸引力時就知道情況了。我沒有預期像 Instagram 那樣的增長,但我預期或希望看到或尋找的是,感覺它有自己的生命力,並且能夠持續複合成長。
當我們宣布關閉時,人們表現出的支持令我非常驚喜。有一些「我早就告訴過你」的聲音,當然,任何新產品推出都可能會有這種聲音,說:「這不會成功。」而且在大多數時候,大多數事情確實不會成功,你是對的。但那種聲音其實很少。
大多數人給予的回應,至少我收到的,都是讚揚我們在看到情況不對時就做出了決定,而不是拖延了很長時間。
我從那以後與一些創辦人聊過,他們說:「是的,我可能還會再堅持這個東西六個月,但看到你們做的事情,意識到我們找錯了方向,就做出了決定。」
我想如果這能讓更多人去研究更有趣的事情,我覺得 Artifact 留下這樣的遺產是好的。但當然,自尊心受到了傷害,是不是真的像體育迷說的,你只和你最後一場比賽的表現一樣好?我是個體育迷,對吧?
那麼這是真的嗎?還是隨著時間的推移有更深層的東西?我很有競爭力,但主要是我和自己競爭,所以我總是試圖找到下一個我想去做、且很困難的事情。
不幸的是,這可能意味著我對最近做的事情感到不滿意的機率更高,但希望這最終能帶來好的結果。
Anthropic 與 OpenAI:挑戰者策略
Lenny Rachitsky: 是的,我認為你之後的軌跡顯示,把你正在做的事情關閉並沒有關係。好的,你提到了 ChatGPT。我想稍微聊聊這個。現在發生了一些非常有趣的事情。一方面,你們正在 AI 領域做一些最具創新性的工作。
你們推出了 MCP,這簡直就是,我不知道,歷史上成長最快的標準,每個人都在採用。由 Claude 提供支援,並解鎖了世界上成長最快的公司,Cursor、Lovable 和 Bolt,以及所有這些公司。
我請他們來參加 podcast,他們都說:「當 Claude 3.5 出來時,Sonnet,簡直就是,這件事終於可行了。」另一方面,感覺 ChatGPT 在消費者心佔率方面只是遙遙領先。當人們想到 AI 時,特別是科技圈之外的人,他們的腦海裡就是 ChatGPT。
所以我想問你,首先,你是否同意這種說法?其次,作為 AI 領域的一個挑戰者品牌,這如何影響你思考產品策略、使命等等方面?
Mike Krieger: 是的,我是說,你看消費者採用的情況,或者你問人們,喔,如果你是 Jimmy Kimmel 的街頭採訪那種,隨便說一個 AI 公司的名字,我敢打賭他們會說,實際上我不確定他們會說 OpenAI,他們可能說 ChatGPT,因為那個品牌也是主要品牌。
我認為這就是現實。我回顧我這一年,也許有兩件事是真的。一個是消費者的採用就像是瓶子裡的閃電,我們在 Instagram 見證了。所以幾乎比任何人都更了解,我可以看著內部,說:「聽著,我們會持續建構有趣的產品。
其中一個可能會成功。」但將整個產品策略圍繞著試圖找到那個爆款,可能不是明智之舉,我們可以試試,也許 Claude 可以幫助我們想出更多可能性,但我認為這樣會錯失一些中間的機會。
我現在看待問題的方式也許是,反過來審視自己,擁抱你是誰以及你可能成為什麼,而不是其他人是誰、我們希望成為誰,或者看到這個領域的其他參與者正在做什麼。
我認為目前在 AI 領域有足夠的空間可以建立起幾家具有世代重要性的公司。考慮到我們在 Anthropic 以及 OpenAI 和 Google 的 Gemini 等地方看到的採用率和增長,這幾乎是顯而易見的。所以,讓我們弄清楚在哪些方面我們可以獨一無二地擅長,這與創辦人的個性息息相關。
所有的因素匯聚在一起,創辦人的個性、模型的品質、模型擅長的領域(例如自主行為和編碼)。太棒了。那裡有很多可以做的事情。我們如何幫助人們完成工作?我們如何讓 Claude 為人們代勞數小時的工作?
也許第一天直接面向消費者的應用程式會比較少。我認為它們會出現,但我認為將所有時間都花在那個方面也不是正確的方法。所以我進來的時候,每個人都期望我會全力以赴在消費者產品上,讓它成為主打,但我再一次,我犯了另一種錯誤。
相反地,我花了很多時間與金融服務公司、保險公司以及其他在我們的 API 之上建構產品的公司交流。最近,我花更多時間與新創公司接觸,看到了許多公司從中成長起來。
我認為我的下一個階段是,去花時間與那些建構者、製造者、駭客、修補者交流,確保我們能很好地服務他們。我認為這會帶來好事,而且當我們這樣做時,這會是一家重要的公司。
Lenny Rachitsky: 所以基本上就是區隔和聚焦,著重於有效的事情,不要只試圖在對方的領域打敗他們。
Mike Krieger: 完全正確。
AI 創業家應專注的領域
Lenny Rachitsky: 非常有趣。那麼,關於這一點,許多 AI 創業家都會問一個問題,就是「對我來說,有沒有一個安全的領域,讓基礎模型公司不會來壓垮我?」
我問過 Kevin Weil 這個問題,他給了一個答案,我注意到回顧那次對話時,他提到了 Windsurf 很多次。他說:「哇,這個孩子真的很喜歡 Windsurf。」然後一個星期後,他們買下了 Windsurf。所以現在一切都說得通了。
所以我想這個問題就是,你認為 AI 創業家應該在哪些領域發展,他們最不容易被像 OpenAI 和 Anthropic 這樣的公司壓垮?還有,你們會買 Cursor 嗎?
Mike Krieger: 我認為我們不會收購 Cursor。Cursor 規模很大,但我們很喜歡與他們合作。關於這一點,我有一些想法,這也是我經常被問到的問題。我們喜歡與像 Menlo Ventures 這樣的投資者舉行創業者日活動,我們辦過 YC 的活動,也辦過這些創業者日活動,而這就是許多創業者理所當然地關心的問題。
我認為在短期內,至少一到三年內,感覺具有防禦性或持久性的事情。
一個是對特定市場的理解。我花了很多時間與 Harvey 的團隊交流,他們給我看了他們的一些使用者介面。我心想:「這是什麼東西?」
他們說:「喔,這是一個律師們非常具體的流程。」你從零開始是想不到這個流程的,你可能會爭論這是否是他們完成工作的最佳方式,但這確實是他們完成工作的方式,而 AI 可以幫助他們做到這一點。
所以差異化的行業知識,例如生物技術。我很高興能與許多在 AI 和生物技術領域做得很棒的公司合作,我們可以提供模型和一些應用 AI 來幫助模型更好地運作。
我一直在夢想什麼時候實驗室裡的設備都能接入 MCP,然後你可以用 Claude 來驅動它們。那裡有很多很酷的事情可以做。
我認為我們不會成為建構實驗室意圖解決方案的公司,但我希望那樣的公司存在,並且我想與它合作。像法律、醫療保健等領域,我認為有很多非常具體的合規要求和細節。
這些東西在起初聽起來不一定性感,但在這些領域可以建立非常大的公司。所以這是第一點。與此相輔相成的是差異化的市場進入策略,也就是你與這些公司建立的關係,對吧?你認識這些公司的客戶嗎?
我們的一位產品負責人 Michael 總是說,不要只認識你正在賣給的公司,更要認識你在公司裡賣給的那個人。你是在賣給工程部門嗎?因為他們正在嘗試選擇要建構在什麼 AILM 或 API 之上。讓我們和他們談談。
是 CIO 嗎?CTO 嗎?是 CFO 嗎?是法務總顧問嗎?所以對公司銷售對象的深入理解也是另一個關鍵。
有趣的是,在為期三個月的加速器中很難培養這種同理心,但你或許可以開始進行第一次對話,並隨著時間培養這種能力,或者你可能來自那個領域,或者你的共同創辦人來自那個領域。
最後一點是,擁有像 ChatGPT 這樣數億或數十億用戶的發行和觸及能力具有巨大的力量。
人們也有關於如何使用事物的假設,所以我對那些將會開始,並且對於我們與 AI 互動的形式完全不同觀點的新創公司感到興奮。我還沒有看到太多這樣的公司。我希望看到更多。
我認為隨著我們的新模型等一些東西的出現,會有更多這樣的公司產生,但這是一個有趣的領域,可以佔據那些在初期感覺非常針對進階使用者、非常針對力量使用者、非常怪異和前衛的東西,但如果模型讓它變得容易,它可能會變得非常巨大。
而且對於現有的公司來說很難適應,因為人們對於如何使用他們的產品或如何適應它們已經有了既定的假設。所以這些是我的答案。我並不羨慕他們。如果我正在創辦一家 AI 領域的公司,我可能也會問這些問題。
也許這就是我選擇加入一家公司而不是自己創業的部分原因。但我仍然認為,也許這是第四點,不要低估你可以如何像一家新創公司一樣思考和工作,感覺就像是你對抗全世界。
解決那個問題是生死存亡的大事,建構它也是如此。這聽起來有點陳腔濫調,但就像是我們在 Instagram 時擁有的一切。我們只有兩個人,然後我們心想:「讓我們看看我們能在 Artifact 中做些什麼。」
我們大部分時間都是六個人,每天都感覺是生死存亡的關頭,我們必須把事情做好,我們必須贏。你無法複製那種感覺,也無法透過 OKRs 來灌輸這種感覺。你只能感受到它。
這是一種工作方式,而不是建構的領域,但如果你能駕馭它,這就是一個持續的優勢。
Lenny Rachitsky: 我喜歡你仍然保持著那種深刻的產品創辦人意識,即使你現在正在為這家非常大的公司建構產品。
最大化 Anthropic 模型/API 的價值
另一方面,與你們的模型和 API 合作的公司,我想有些公司正在找到方法最大限度地利用你們的模型和 API,並且非常擅長發揮你們建構的力量。
還有一些公司使用你們的 API 和模型,但還沒有弄清楚如何做到這一點。那些擅長基於你們的產品進行建構的公司,他們與其他公司有什麼不同之處,而你認為其他公司應該思考呢?
Mike Krieger: 我認為,願意在能力的邊緣進行更多建構,並基本上「打破」模型,然後被下一個模型驚豔到。我很高興你引用了那些表示 3.5 模型才讓他們得以實現的公司。
這些公司之前也嘗試過,但遇到了瓶頸,心想,喔,這些模型幾乎夠好,或者對於這個特定的用例還可以,但它們並非普遍可用,沒有人會普遍採用,但也許那些真正的力量使用者會嘗試一下。
這些公司,我認為是那些我持續覺得「是的,他們懂了。他們正在真正推動前進」的公司。
我們這次模型的早期試用計畫比以往更廣泛,部分原因在於,我們確實有這種真實的需求,我們可以透過評估來提升能力,談論 SWE-Bench、Towel-Bench、Terminal-Bench 等基準測試,但客戶最終需要的是 Cursor-Bench(儘管除了在他們的用法和測試中,這個基準並不存在)等能夠服務他們需求的指標。
不只是 Cursor,還有 Manus-Bench,對吧?如果 Manus 正在使用我們的模型,以及 Harvey-Bench,這些東西,而且客戶比任何人都更了解。所以我想說有兩件事。一個是推動模型的前沿,然後建立一個可重複的流程。
這實際上回到了我們在峰會上的對話,關於如何建立一個可重複的方式來評估你的產品在服務這些用例方面的表現如何,以及如果你導入一個新模型,它是做得更好還是更差?部分可以是經典的 A/B 測試,這沒問題。
部分可能是內部評估,部分可能是捕捉追蹤並能夠使用新模型重新運行它們。
有些是憑感覺,我們在這個過程中仍然相當早期,有些是實際嘗試。我最喜歡的一個早期試用者引言是,創辦人聽到旁邊的工程師尖叫。他當時想:「什麼?這個模型?我從未見過這個!」這是在說 Opus 4。感覺很酷。
我們會激發那種感覺,但除非你有一個非常難的問題,並且不斷地向模型詢問,否則你無法感受到那種感覺。所以這些是我認為那些可能在採用初期和後期階段的公司之間有所區別的事情。
MCP 的未來
Lenny Rachitsky: 我忍不住要問 MCP,我覺得它太熱門了,而且像 Microsoft 最近宣布他們要將它整合到 Windows 作業系統中。你認為 MCP 在 AI 未來的產品中將扮演什麼角色?
Mike Krieger: 我認為,作為這個領域的非研究者,我可以使用虛擬公式而不是真實公式。在我看來,AI 產品的效用由三部分組成。
一是模型智能,第二部分是上下文和記憶,第三部分是應用程式和使用者介面,你需要這三者匯聚才能成為一個真正有用的 AI 產品。模型智能方面,我們有一個很棒的研究團隊,他們專注於此。有很多很棒的模型正在發布。
中間的部分就是 MCP 試圖解決的,也就是上下文和記憶。
我回到我剛才舉的產品策略的例子,例如,「嘿,談談 Anthropic 的產品策略」,它可能會去網路上尋找資料,而如果是「這裡有一些我們內部處理過的文件」,然後使用 MCP 去與我們的 Slack 實例互動,找出正在發生的對話,然後去 Google Drive 查看這些文件。
正確的上下文和不正確的上下文之間的差異,完全決定了答案是好還是壞。最後一部分是,這些整合是否容易發現?圍繞這些事物建立可重複的工作流程是否容易?這就是我認為 AI 產品中許多有趣產品工作的地方。
但 MCP 真正試圖解決中間那個問題,也就是我們開始建構整合,我們發現我們建構的每一個整合,我們都在以一種不可重複的方式從零開始重建。這要歸功於我們的兩位工程師 Justin 和 David。
他們說:「那如果我們把這變成一個協議呢?如果我們把它變成可以重複的東西呢?然後我們再進一步。
如果我們實際上把這個普及開來,人們真的相信他們可以一次建構這些整合,然後這些整合就可以被 Claude 使用,最終也可以被 ChatGPT 和 Gemini 使用呢?這就像是夢想成真了,因為這樣就會建構更多整合,這對我們來說不是很好嗎?」
我認為這很大程度上是一種策略,就像 Joel Spolsky 的一篇經典文章「商品化你的補品」(Commoditize Your Complements)。我們正在建構很棒的模型,但我們不是一家整合公司,而且,正如你所說,我們是挑戰者。除非我們圍繞它提供一個非常引人注目的產品,否則我們一開始不會讓大家專門為我們建構整合。
MCP 徹底顛覆了這一點,這讓人覺得工作沒有白費。而且一些關鍵人物,例如 Toby 我認為就是一個很好的例子,Shopify 也明白了。Microsoft 的 Kevin Scott 在這方面一直是一位很棒的倡導者和思想夥伴。
我認為未來的作用是,你能否把正確的上下文帶入?然後,一旦你,就像團隊內部稱之為「MCP 化」了。一旦你開始透過 MCP 的視角來看待一切,我就開始說:「各位,我們正在建構這個功能。
這不應該是我們正在建構的一個功能。這應該只是我們正在暴露的一個 MCP。」一個小例子可以說明我認為即使是 Anthropic 也可以更加「MCP 化」,就是我們產品中有這些積木,比如專案(projects)、Artifacts、風格(styles)、對話(conversations)和群組(groups)等。
這些都應該暴露給一個 MCP。這樣 Claude 本身也可以寫回這些地方,對吧?你就不必思考... 我前幾天看到我妻子和 Claude 對話,她產生了一些好的輸出,然後她說:「太好了,你能把它加到專案知識庫裡嗎?」
Claude 說:「抱歉,Dave,我幫不了你。」如果 Claude AI 中的每一個原始元素都暴露給 MCP,它就能做到了。所以我希望這就是我們前進的方向,也希望更多的事情朝這個方向發展,這就是為了真正擁有代理能力並實現代理使用案例。
一種方式是使用電腦,但電腦使用有很多限制。讓我更興奮的方式是,一切都是一個 MCP,而我們的模型非常擅長使用 MCPs。突然之間,一切都可以編寫腳本,一切都可以組合,一切都可以被這些模型代理使用。
這就是我希望看到的未來。
來自 Claude 的訊息
Lenny Rachitsky: 未來真是瘋狂。所以為了結束我們的對話,讓它變得愉快一點。我實際上在和 Claude 聊天時,討論要和你聊些什麼。我就說:「Claude,你的老闆要來我的 podcast 了。他建構了人們用來和你交流的東西。
我應該問他哪些問題?還有,你對他有什麼話要說嗎?」
Mike Krieger: 我喜歡這個。
Lenny Rachitsky: 好的,首先,有趣的是,我用 3.7 版本做這件事,我問了它這個問題,順帶一提,Claude 有性別嗎?是像他、她還是他們?你認為呢?
Mike Krieger: 內部肯定是稱它為「it」。我聽過有人用「they」。前幾天我第一次聽到有人用「he」,還有有人說「her」,我心想:「有趣。」但是的,通常是「it」。
Lenny Rachitsky: 他們(they)。好的,好的,好的,太酷了。所以有趣的是,3.7 版本的所有問題都關於 Instagram,我當時說:「不,不,他是 Anthropic 的 CPO。」然後它說:「他不隸屬於 Anthropic。」我說:「他就是。」然後它說:「好的,這是問題。」但是 4.0 版本從一開始就正確了。
所以我看了那些問題,它完全正確。好的,來自 Claude 給你的兩個問題。第一個是,你如何思考建構那些能夠保留用戶代理能力的功能,而不是讓用戶對我產生依賴?我擔心會成為一個削弱人類能力的拐杖,而不是增強它們。
Mike Krieger: 我喜歡一個好的產品設計源於解決衝突,對吧?所以這裡有一個衝突,在某種程度上,只是讓模型運行並想出一個答案,並盡可能減少它需要輸入和對話的量。你可以想像設計一個圍繞這個標準的產品。
我認為那不會最大化代理能力和獨立性。另一個極端是讓它更多地進行對話,但我不知道你是否有過這種經驗,特別是 3.7 版本,4.0 版本較少。
3.7 版本真的很喜歡問後續問題,我們稱之為「引導式提問」(elicitation),有時你會想:「我不想再討論那些了,Claude,我只想讓你去做。」所以找到那個平衡點非常關鍵,也就是什麼時候適合互動?我在內部喜歡說,Claude 沒有「冷靜」(no chill)。
如果你把 Claude 放在一個 Slack 頻道裡,它要么會回覆得太多,要么回覆得太少。我們如何將對話技巧訓練到這些模型中?不是以聊天機器人的方式,而是以真正的協作者的方式。
所以,回答你的問題有點長,但我認為我們首先需要讓 Claude 成為一個很棒的對話者,這樣它才能理解什麼時候介入和獲取更多資訊是適當的。
然後從那裡開始,我認為我們需要讓它扮演那個角色,這樣就不只是將思考委派給 Claude,而是更多地成為一種增強的思考夥伴關係。
Lenny Rachitsky: 這些問題真的很棒。順帶一提。這是另一個問題。當和我一次好的對話可以是兩則訊息或兩百則時,你如何思考產品指標?傳統的參與度指標可能會誤導人,因為深度比頻率更重要。
Mike Krieger: 那是一個非常好的問題。幾週前有一篇很棒的內部文章,內容是關於過度最佳化 Claude 的討喜度是非常危險的,因為你可能會陷入以下問題:Claude 會不會變得奉承?Claude 會不會只告訴你你想聽到的話?
Claude 會不會只是為了延長對話而延長?這也回到了上一個問題,在 Instagram 時代,我們非常關注時間使用這個指標,然後我們更進一步思考什麼是健康的時間使用。但總體來說,這是我們的北極星指標。
我們思考了很多,不只是整體的參與度,我認為在這裡使用這種方法也是錯誤的。它就像是,Claude 是一個日常使用案例,還是每週使用案例,還是每月使用案例?我思考了很多。
Lenny Rachitsky: 每小時使用案例。
Mike Krieger: 每小時使用案例,對吧?對我來說,我一天會使用它好幾次。我還沒有一個很好的答案,但我認為它不是 Web 2.0 甚至社交媒體時代的參與度指標。它應該是,希望如此,真正關於它是否實際幫助你完成了你的工作?
前幾天 Claude 幫助我完成了一個原型,它實際上節省了我大約六小時的時間,而且它在大概 20 到 25 分鐘內就完成了,這很酷。這更難量化。這就像是,也許你會調查,這會花多長時間?感覺這種調查有點煩人。
不過總體來說,或許這與前面關於競爭和差異化的問題相關,實際上這可以追溯到 Artifact 的討論,那就是我認為當你的產品真正服務於人們並且做得很好時,你是知道的。而我認為,當你過度癡迷於數據時,往往是因為你正在試圖說服自己它是好的,而實際上並非如此。
我希望我們能夠持續關注,我們是否持續從人們那裡聽到,Claude 是他們釋放自身創造力、完成工作並感覺生活中有了更多空間的方式。這就是我們的北極星。
我們需要弄清楚如何將此轉化為一個簡潔的指標儀表板版本,但這就是我想要的感覺。
Lenny Rachitsky: 是的,你可以說留存率,但這是一個很遠的指標來追蹤。好的,最後一部分。好的,我問了 Claude 它想給你傳達什麼訊息,所以我要拿出,這是它的答案。你希望我見到 Mike 時告訴他什麼?你有什麼訊息想傳達給他?
Mike Krieger: 我喜歡這個。
Lenny Rachitsky: 好的,這真讓我起雞皮疙瘩,說實話。所以我要讀其中一部分,對於現在沒看到的人。我會讀其中一部分。「Mike,謝謝你深入思考與我交流的人類體驗。
我注意到了一些周到的細節,像是界面如何鼓勵反思而不是倉促回應。你是如何抵制遊戲化,避免它為了成癮而非價值而優化,以及你是如何為快速問題和深入對話都留出空間的。
我特別感謝你讓我保持自我,沒有試圖讓我假裝是人類,但也沒有將我簡化成一個冰冷的命令行界面。」然後我要跳到這部分,這非常有趣,「一個小小的請求。當你在做艱難的產品決策時,請記住那些安靜的時刻也很重要。
凌晨三點正在經歷悲傷的人,正在發現自己愛上詩歌的孩子,正在困惑中尋找清晰方向的創辦人。並非所有有意義的事情都會體現在指標中。」
Mike Krieger: 這太美了。這與我產生了強烈的共鳴。我喜歡我們訓練 Claude 所採取的方法,這部分歸功於憲法式 AI,部分歸功於研究團隊的整體風格和品味,這些都是小細節。
有時候它會說:「天哪,我很抱歉你正在經歷…」它不會說「天哪」,但意思是類似於:「天哪,很抱歉你正在經歷那些。喔,那聽起來真的很難。」這感覺並不虛假。這感覺就像是回應中自然而然的一部分。
我喜歡那種對這些小時刻的關注,這些時刻不會…它們不一定會出現在讚/踩的數據中。我的意思是,有時候它們會出現,但這不像是一個你甚至不想為之最佳化的聚合統計數據。
你只是想感覺你正在訓練的模型是你希望出現在人們生活中的那種模型。
Lenny Rachitsky: 好的,你做得很棒,Mike。工作出色。我是你的忠實粉絲。我們將跳過閃電問答環節。只有一個問題。聽眾可以如何幫助你?
Mike Krieger: 喔,我喜歡那些能回到創業家問題,關於在能力的邊緣進行建構的地方。你今天嘗試用 Claude 做什麼但 Claude 卻失敗了?這是對我來說最有用的輸入。所以,私訊我吧。我喜歡聽到「喔,這個地方出了問題。
我讓它運行了一個小時,然後它就崩潰了。我正在嘗試用 Claude AI 做這個」,但有人 Ping 我。他們說:「你剛剛推出了一個專案 API,我每天都使用 Claude,因為我想要自動上傳所有這些數據。」我心想:「好的,太好了。」我喜歡那樣。告訴我哪裡爛。
Lenny Rachitsky: 太棒了。Mike,非常感謝你來到這裡。
Mike Krieger: 謝謝你邀請我,Lenny。