人工智慧時代的價值創造:Mike Krieger的見解
Harry Stebbings: Mike,兄弟,我太興奮了。我剛剛出去散步,並且聽了你去年做的每一集節目。所以我之前就跟你說過,我不想從那些普通的問題開始,比如「你是怎麼進入科技行業的」這些廢話。我想從一個非常具有挑戰性的問題開始,那就是,作為風險投資者,我每天必須確定未來的價值在哪裡。我看著今天的世界,卻無法確定。我的問題是,當我們展望未來,在這個由人工智慧主導的十年裡,價值將會在哪些地方創造出來?
Mike Krieger: 是的,我覺得這是個很棒的問題。我經常從創業者那裡聽到這樣的問題。我曾經純粹是自己創建初創公司,但現在我經營一家部分幫助創建新初創公司的公司,或者幫助提升他們的運氣。我經常得到的問題是,「我可以創建什麼,不會和Anthropic或其他這些實驗室有所重疊?」我沒有完美的答案,因為我並不擁有水晶球,但我覺得最有價值的地方應該是在你擁有一些差異化的市場進入策略,或者你擁有某些特定行業的專業知識,或者你擁有只有你才能訪問的特殊數據,理想情況下最好是兩個甚至三個條件同時具備。所以,處於金融、法律、醫療等領域的公司,我覺得醫療領域我也接觸過,這真的是一團非常複雜的線球,前期的工作其實並不光鮮亮麗,實際上並不是你能在加速器裡做的那種短期工作,但這些基礎工作,你所做的基礎工作,我認為這些是創造長期價值的可持續領域。然後,你可以站在一個地方,充分利用基礎模型的優勢。如果需要,你可以進行自己的微調,進行AI專業化,但能讓你在長期中立足的,是能夠深入這些領域,對這些領域有獨到的理解,並且隨著時間的推移,在這些地方部署後不斷改善。
Harry Stebbings: 當你說到基礎工作時,你提到差異化的市場進入策略和差異化的數據池或數據來源。你覺得這一波新一代的AI浪潮,會更有利於那些已經擁有這些條件,並能夠實施AI的現有垂直SaaS公司,還是更有利於那些在這些領域中新創建的底層公司?哪一個會更多一些?這是一個很好的問題。
Mike Krieger: 我認為這兩者都可以。在我思考AI和產品設計的最高層面時,我認為你必須跳出一個非常微妙的舞蹈,要展示未來,並夢想出模型目前在邊緣上所能達到的能力,因為你希望設計的是三個月後、變化如此迅速的未來,而不是過度承諾而又無法實現,因為這樣會破壞信任。如果你是創業公司,這點會相對簡單一點,你可以做更多的過度承諾,因為人們在試探你的產品,早期的採用者有更高的接受度。但如果你是現有的垂直SaaS公司,你說「我們加入了AI」,但人們試過後發現,實際效果並不那麼好,或者他們覺得,喔,我以為它能做所有這些事,結果它只做了其中的兩個,且做得不太好。我覺得這兩個群體面臨著截然不同的挑戰。對於前者來說,你有現有的產品,已有的用戶行為,你希望趕上未來的趨勢,同時不疏遠你的現有用戶。我認為這裡有一些好的模式可以做得很好。在創業公司的情況下,你可能還沒有數據,也許是獲得初期燈塔客戶的問題,或者你還沒有建立關係,但你對AI如何影響特定行業或垂直領域有一些假設。而你的差異化不在於已有的關係,而是在於預見未來,並找到快速提供價值的方式,並且在那些願意下注支持你的公司裡實現這一點。
創業公司與AI模型的未來挑戰
Harry Stebbings: 你提到創業公司需要為未來的模型而建設。這是一個非常具有挑戰性的時刻,創業公司產品的質量在很大程度上取決於模型的質量。模型的變化可以對創業公司的輸出產生巨大的影響,無論是編程軟件還是法律平台,無論是什麼。 未知播客主持人/旁白: 創業公司應該建立基於我們今天擁有的模型,還是應該基於我們能夠預測的未來來構建?
Mike Krieger: 這真是個很好的問題。我聽到過很多人說,「我的創業公司直到Cloud3.5 Sonnet或者第二版Cloud3.5 Sonnet才真正成為創業公司」,但我也聽過創業者說,這家公司在這個模型突破之前根本就不是一家公司,現在準確率從95%提升到99%,這對某些行業來說已經足夠了,有時甚至從70%提升到90%,有時會出現這樣的跨代飛躍。所以如何判斷何時是那個突破點呢?創業者們有時會在某些領域不斷努力,無論是幫助人們編程,還是進行法律分析,或者像我提到的醫療領域等等。他們精心組建的版本,可能涉及多個工具,但往往價格不具競爭力,因為它依賴的模型無法得到支持。即便如此,這樣的工作還是值得做的,因為當模型出現時,你就不會從零開始。因此,往往從這些模型生成的變化中受益的公司,並不是那種突然看見「哇,Cloud3.7 Sonnet可以做這些事情」,而是那些已經在該領域奮力嘗試過的人。我以Cursor為例,有人給我看了一份來自Hacker News的前頁提交列表,這些提交來自Cursor的創始人,最終他們突破了,但那不是他們的第一個產品或第一次的嘗試。
Mike Krieger: 他們一直在嘗試,並且在不確定過程中堅持著。我不確定具體的時間跨度,但它並不是由模型迅速啟用的,而是來自於積累的背景、知識和經驗,這些幫助他們理解在這個領域中哪些事情是出錯的,哪些是成功的,從而使模型可以釋放他們的潛力。所以,簡單地說,不要等模型完美再開始,應該在這個領域進行探索,並為當前一代模型的不足感到沮喪,然後積極地嘗試下一代模型,這樣你才能感覺到,當模型更強大的時候,你終於能實現自己腦海中所看到的東西。
Harry Stebbings: 我必須問,你提到差異化的市場進入策略、差異化的數據,然後你說,「哇,這些釋放出來的模型來得真快,我也不知道該怎麼說。」如果模型層並不是基於差異化數據的遊戲,那麼它就是基於差異化的市場進入策略的遊戲嗎?你是怎麼思考的?
Mike Krieger: 我覺得這是幾個不同的方面,尤其是對於基礎模型層,我會把它分為三個值得長期投資的地方。第一個是人才。我知道很難量化什麼是人才,什麼是人才密度,但人才會孕育出更多的人才,對吧?你會成為吸引力,特別是當你圍繞著某個有凝聚力的使命或故事來建設自己的時候。我在Anthropic這裡親眼見證過這一點,我很喜歡我們的研究團隊,並且每個月我們都會迎來一位來自其他實驗室或學術界的重大新成員。這是一個必須培養並維護的優勢,因為人們顯然是自由的,可以做自己想做的事。所以你必須保持最初吸引他們的東西,但這是很重要的,因為保持在前沿不僅僅需要做相同的事情,還需要找到正確的突破點。所以這是第一個。
Mike Krieger: 第二個是,我認為隨著時間的推移,模型會越來越有區別,而不是變得越來越相似。當然,很多人會關注相似的基準,但Claude確實有它的特點,GPT也有它的特點,它們各自有優勢和劣勢,這不僅體現在性格和語氣上,還體現在那些模型真正擅長的領域。對我們來說,顯然編程就是一個很大的垂直領域,我們針對這個領域去努力,這並不是偶然的,也不是說「哦,這個模型很擅長編程,我們就繼續在編程領域做好它」,而是看到那些模型的進展,看到越來越多的公司依賴這些基礎模型來做編程工作,舉例來說,或者用於代理規劃,這為下一代的強化學習奠定了基礎。
Mike Krieger: 所以,第一個是人才,第二個是專注和隨著時間發展的模型特性,第三個是,我在Deepseek出現的時候經常被問到,Deepseek對我們意味著什麼。我覺得我們從技術層面學到了一些東西,但從市場層面和市場定位的角度來看,這幾乎沒什麼影響。這是因為我們與公司建立的關係不是他們只註冊API,然後以某種速率交換輸入和輸出的代幣,而是,我想成為你們的長期AI合作夥伴。我想與你的應用AI團隊一起共同設計產品,和你一起大膽夢想,不僅是API,也要為工作提供雲端支持。所以,這看起來更像是做一家公司,這聽起來也許很陳詞濫調,但這正是你所提供的,更多的是合作夥伴關係,而不僅僅是AI模型。我認為,如果你不能做到這三個方面,可能會遇到麻煩。
Harry Stebbings: 我確實想稍後再談談編程的元素。不過我必須問一下,當我們看待當前的進步障礙時,你認為目前最大的障礙是什麼?這是我聽到來自不同人的完全不同的觀點,無論是Alex Wang還是Jonathan Ross在Grok。是計算、數據還是算法的問題呢?
Mike Krieger: 最大的障礙是如何讓模型訓練的環境更好地匹配現實世界的挑戰,這些挑戰不是那種單一性的。 我知道Alex也在思考這個問題,因為我們曾經討論過關於代理行為的評估,這是我正在討論的廣泛問題的非常具體的版本。即便在軟體工程領域,軟體工程師的工作不僅僅是編寫代碼,而是理解需要完成的任務,與產品管理人員一起制定時間表,深入理解需求,並且深入理解用戶使用情況,還要以一種可測試和可反覆修改的方式交付所構建的產品。如果他們正在開發某種面向公眾的產品,還需要收集用戶的反饋,這一切是沒有現成的評估標準的。很有趣的是,我們通常把最常見的軟件工程工作叫做SWE(軟體工程師)基準測試,但實際上成為一名SWE要做的遠不止是“我審查了一個拉取請求,並且提交了這個請求,然後你會接受或拒絕它。”
Mike Krieger: 所以,建立能夠更好模擬這些情況的環境和評估標準是目前的一大挑戰。我們在Anthropic的團隊中會想到很多關於辦公室專業人士這個用例的問題,這些用例未來可能會被這些模型大幅擴展,但目前還沒有人很好地進行評估。雖然在研究領域,我們開始在評估上做得稍微好一些,但依然存在極其複雜的挑戰。我是指那些像人文科學中的期末考試那樣的評估,這種評估通常涉及多步推理。然而,目前還沒有一個評估標準來模擬這樣一個情境:我加入一家公司後,迅速了解我的角色是什麼,誰是誰,組織中的關係是如何構建的,哪裡可以找到更多的資訊,如果我需要的話,然後進入到這家公司正常運作的節奏中。這是一個非常難以捕捉的環境。因此,我認為解決方案之一就是如何將這些複雜的環境拆解成更具體的部分,但同時也需要全盤考慮,這對於模型進步來說是目前最大的一個障礙——如何讓模型從只擅長極端特定任務,變得能夠在更廣泛的情況下提供幫助。
Harry Stebbings: 在我們深入探討那些專門化的產品之前,我最近和Macaw的Adarsh進行過一次對話,並問了他一個問題,我很想聽聽你的想法。問題是:當我們展望模型中數據的未來時,會不會有更多的合成數據,相互積累,還是人類數據會繼續成為推動模型進步的主要數據來源?你是怎麼看待這個問題的?
Mike Krieger: 我認為,為了讓模型進步,的確需要有一個故事,說明如何首先用原始的人類數據來初始化模型,但接下來可以生成這些合成的環境,讓模型能夠在其中進行探索和尋路。Claude最近玩寶可夢遊戲,這對我們的研究和工程團隊來說成為了一個有趣但又有點搞笑的分心事。大家都在說,“我們在看Claude玩寶可夢直播。”這是一個有趣的例子,因為你可以想像在相同的遊戲內進行多次不同的嘗試,並且都在某些約束和規則之下進行。當問題空間不像“你是否走出了Viridian Forest?”那樣明確時,這就變得更加困難。我自己也從未玩過寶可夢,現在只是通過觀看這些直播來學習。但這仍然很重要,因為模型需要能夠既找到黃金路徑,又能合成各種不同的途徑,這樣它才能在面對不確定性時仍然取得進展。我認為,這絕對需要是一個混合的過程。對於代碼來說,它需要有對代碼的良好基礎理解和良好的例子,但同時也需要能夠在這些例子上進行廣泛的探索。
Mike Krieger: 另外一個我認為仍然被低估的部分是,如何衡量、評估以及獲取有關角色的數據。我會使用一個非常寬泛的詞,就是“感覺”。使用模型的“感覺”究竟是什麼?
我們直到實際坐下來玩弄這些模型,才真正了解這些感覺。這在某些方面是它的一個很好的特性,因為它意味著模型擁有某種非常質性、接近人類的方面。但也正因如此,我們並不擁有好的回歸測試方法。有時候,我們從Claude 3.5升級到3.7,大家會說,“哦,Claude看起來更友好,但語氣更簡潔”,或者“Claude似乎更願意回答我的問題,但我希望它在創意寫作方面能更好。”這些東西並不是那麼容易量化的。這跟數據的問題有關。所以我認為,既能擁有這些關於這些“軟技能”的數據,又能有針對它們的評估,都是很重要的。
Harry Stebbings: 你知道我覺得最奇怪的是什麼嗎?我覺得最奇怪的是我們能夠選擇使用哪些模型,你可能會說,“嗯,理所當然,你會這麼做,因為每個模型都有自己的專長。”但我覺得當你將目光投向三到五年後,可能就不會選擇使用哪個模型了,這就像你選擇使用哪個Google一樣。難道我完全錯了,還是我完全沒有理解重點?
Mike Krieger: 不,你並沒有錯。這裡有一個概念我很喜歡,它來自我在人機互動領域的背景,這就是“漏掉的抽象”(leaky abstractions)。我們作為軟體開發者,嘗試將所有的複雜性封裝在某個小外殼下,然後使用者不應該需要考慮這些複雜的東西。而現階段大多數AI產品設計的狀況,卻是這種極為“漏掉”的抽象。舉個例子,為什麼我們要選擇Opus、Haiku或Sonnet?大多數人都不理解它們之間的區別,對吧?或者如果你去到OpenAI的下拉選單,選擇模型時,你會發現那裡有很多模型,每一個模型都有存在的理由,但整體的使用體驗就是,為什麼我要選擇這個而不是那個呢?哦,這個模型在某些能力上更強,但其他的卻沒有。我們也有這個問題。
Mike Krieger: 再來是模型的上下文。當你理解這些模型是如何構建的時,你會發現它們會建立起上下文,每次對話都會重播全部的上下文,這樣它才能進行下一次推理。這樣的結果就是,每一次的對話都會有所不同,我總是將其與你和同事交談時做比較,雖然你們可能有不同的電子郵件線程,但始終還是同一個同事在背後。假如你提到他們喜歡的運動隊,或者提到你們一起做過的項目,他不會說,“哦,我不知道你在說什麼,或者我需要去找回我的記憶。”這就像是一個共同的基礎,這樣的設計迫使用戶必須理解這些模型,而我覺得我們不應該讓用戶需要去理解這些。
Mike Krieger: 最後是提示(prompting),儘管我們已經做了很多關於如何將簡單的提示轉換成對模型最優的提示的工作,但我希望能讓這一過程對用戶來說完全透明,不要讓他們覺得自己在與模型交互時,必須特別注意如何設置提示。如果模型在理解問題或需要幫助時能進行對話,那應該是自然而然的,而不是讓人感覺出現了能夠掌握提示技巧的人與沒有這些技巧的人之間的差距。隨著每一代的進步,這個差距會越來越小,但我們應該讓它縮小得更快。
Harry Stebbings: 你怎麼看待模型質量與用戶體驗(UX)之間的關係?在優先考慮這兩者時,你是如何思考的?
Mike Krieger: 現在已經無法將這兩者分開了。我覺得,作為一名UX設計師,我剛才在我們的通話前參加了產品評審,當時我在思考Instagram的產品設計會議。那時是像素、一些合成數據,或者也可能是實際數據。我們將我的動態消息改成了這個我們正在提議的UX設計。但其中並沒有太多的不確定性。你將其推出到全世界,或許人們會以某些方式使用它。但今天的設計師、產品經理,甚至工程師都需要考慮,實際上我所做的,是在為一個根本上是非確定性的系統設計一個框架和產品,這意味著評估、模型質量、後端的提示設置,這一切都成為產品設計的一部分,並會直接影響最終的產品體驗。 舉個例子,你可以設置Claude是否進行後續提問,這在某些產品部分可能是你需要的,但在其他部分則可能不需要。你也可以設置Claude是否需要花更多時間思考一個問題,進行更多推理,或者不需要。這些都是你在產品設計初期就需要做的決策,並且最終會在實際產品中顯現出來。 另外,我們之前也提到過,作為一名創業者,或者做B2B SaaS的創始人,你需要將模型的現狀、未來發展與用戶需求進行綜合考量。這同樣會反映在你的產品設計中,你應該在設計初期就進行評估,看看你正在做的事情是否能夠用現有的模型實現,或者至少能夠對未來的模型發展有所預見。
但模型隨著時間推移會發生變化,產品也會發生變化。如果你沒有一個好的評估框架,甚至是回歸測試這些評估,你可能會發現自己推出的產品,三個月後用戶會說,“這個產品曾經很好,但現在似乎出現了問題,已經不再達到預期了。”而你卻無法確定是哪三個變化導致了這個情況。是模型的變化?還是產品設計的變化?還是引入了其他功能?系統參數變長了?這無疑是我做過的最複雜的產品開發工作之一。
Harry Stebbings: 我曾在倫敦訪問過OpenAI的Sam,他提到他們作為初創公司的一大樂趣就是可以更快地發布東西,並且不必達到完美的狀態。實際上,他們面臨的挑戰是,隨著公司規模的擴大,對每次發布的期望和壓力也越來越大。你怎麼看待這種“發布不必完美,先讓用戶使用”的方式,與現在Anthropic作為一家擁有數百萬用戶的大公司,如何看待這種問題?
Mike Krieger: 我經常思考這個問題,特別是因為你面對的有不同的用戶群體和不同的期望,這些期望包括穩定性和對前沿技術的需求。所以在API產品中,人們更重視可預測性和穩定性,而對於未來的功能,他們更願意選擇性地參與。所以這可以是一個選擇性參與的事情。舉個例子,我記得我們推出過提示緩存功能,這對於客戶來說是一個很大的成本節省。最初,我們通過Beta選項來實現這個功能,用戶需要選擇參與。而我們在API產品上的大多數功能也是這樣進行的。對於我們的消費者端產品來說,這樣的選擇性參與就顯得比較無趣,因為你希望能夠更靈活地進行發布和實驗,並且你不需要完全破壞用戶體驗,但你會有更多的彈性。
我們還有很多企業客戶正在使用Claude進行企業工作。我認為,在企業中的AI採用仍然處於早期階段,所以你在那裡能做的事情會比其他地方更多,像是我不知道Salesforce每年推出幾次版本,但我知道很多公司一年大約只會做兩三次大的發布,而且這通常是圍繞著一些大的事件來進行。顯然,我們還遠離那樣的模式。我們仍在快速推出新功能,但實際上,我們仍然在尋找平衡點。比如,是否是一個每月的發布,還是你會儘可能頻繁地推出,但每一個功能都需要用戶選擇性參與,這也增加了複雜性。所以,這是個很好的問題。我可以說,這仍然是我們積極討論的話題之一,如何平衡快速發布,讓世界上的人們接觸到這些新功能,並且從中學習,但隨著我們積累了名氣,或者當人們開始依賴我們的產品來進行工作流處理時,你就無法再隨便對待這些發布了。
Harry Stebbings: 我們現在處於一個產品行銷的噩夢嗎?我的意思是,這一週我們有DeepMind的發布,這一週OpenAI有發布,這一週Anthropic也有發布,10天前Mistral也有發布。說實話,每一天都有新的發布,這可能讓世界變得麻木。你怎麼看待這個現象?這對你的產品發佈、行銷訊息有何影響?
Mike Krieger: 嗯,這確實變得更加複雜。Instagram那時候,你需要關注的大多數大事是提前就知道的。比如說,別在WWDC週推出東西,那一周會有大量的發布,或者是9月的iOS大會,這樣的重大事件,還有其他大節日等,這些都讓從行銷的角度來看,事情變得相對容易。 但現在的情況讓我有點想起Crossy Road,像是你在過馬路,然後發現有空隙,這時就可以發布。哦,現在似乎有個空隙,該發布了,哦,等一下,我聽到有傳聞,這樣真的更難了。我也聽過其他實驗室的朋友說,大家都在努力讀懂形勢,試圖判斷,現在可以發布了嗎?還是我們要等到下週二?這確實變得更加困難。
Harry Stebbings: 哈哈,真是要快點出手啊。
Mike Krieger: 是的,這確實需要完全不同的應對方式。我也得給我們的產品行銷團隊點贊,因為他們從一個點開始轉變。你知道,我們是Cloud 3.7版本的發佈者,週一推出,而我們在週日晚上9點才鎖定博文,這從行銷的角度來看,並不是最佳實踐。當時我們還在週日給媒體做簡報,感謝那些在週日幫忙的人。所以當一切都完成並準備好後,我們就能推出了。這的確需要一種快速反應和靈活調整的能力。 即使像是我們發布一個模型時,會有模型卡、評估和比較表。在比較表中,有些信息是前一週才發布的,比如Grok 3就是在前一週才推出的。
Harry Stebbings: 那麼,當這些模型被發布時,Grok 3發布了,你們會怎麼想?開玩笑說,Anthropic和OpenAI的團隊會不會心裡想:“糟糕,又被他們超過了?”還是會覺得,“嘿,我們贏了!”
Mike Krieger: 我總是提醒我的團隊,模型發布會一直發生,無論何時你都會面臨這樣的情況。我們現在處於這樣的循環中,對此你必須適應,不能對每一次發布過於沮喪。對,確實如此,有時候你可能很幸運,會有兩三個月的時間,你發布的模型或者產品仍然是業界的最先進水平,在所有你關心的領域都佔據領先地位。有時候這樣的狀況只會持續一週,但你不能過於強調其中任何一點。你不能沉湎於過去的榮耀,也不能對自己過於自滿。 我認為,對我來說,這有一個非常有用的圖表,我在幾乎每一場銷售會議中都會展示,這個圖表描繪了Anthropic的創立過程和我們今天的里程碑。在任何一個時間點,你都可以說,“哇,Claude 2似乎已經落後了。”然後,“哦,Claude 3是業界領先的。”但隨著時間推移,又會變成不是最先進的。所以你必須看清整個發展的軌跡,相信自己會不斷進步。 其次,要提醒自己,如果每個人都根據評估的變化而每天更換模型,那不僅會給用戶帶來混亂,作為軟體提供商,這樣做會帶來極大的問題。而且這會讓整個行業變得更加混亂。隨著時間的推移,你會發現人們不僅是部署模型,他們還會進行微調,或者將模型與他們為特定用例所做的定制工作相結合。這並不是一個可以一夜之間切換的東西,或者說,你在模型選擇中不過是三四個選項中的一個。例如,在編碼環境中,你仍然處於競爭中,還是有機會的。
但我不確定這是不是在尋找一個冥想式的全景觀察角度,還是只是習慣這種顛簸的過程,或者兩者的結合。但這確實是一個現實,每次有模型發布時,我相信每個實驗室的人都在看發布會,或者在看評估指標,然後想,“好吧,我們有工作要做了。”
Harry Stebbings: 我會認為品牌是最重要的。就像你所說的,人們並不會每天都換模型。他們會認為,“哦,我是Claude的人”或“哦,我是ChatGPT的人。”他們已經對自己的模型有了某種認同感。你同意這個說法嗎?還是覺得這太簡單了?
Mike Krieger: 我同意,我覺得這是對的,特別是在消費者層面。我剛剛讀了Ben Thompson的文章,他常常邀請Nat Friedman和Daniel Gross來討論,有些人是Claude的人,有些人則是ChatGPT的人。我覺得這確實是會發生的,你喜歡某個模型的個性、界面設計、氛圍。這讓我想起了我們和Snapchat之間多年的有趣較量,然後甚至更早之前,會有一些人推出像Instagram那樣的新產品,但它是專為高端攝影師設計的,或者有一個額外的特點,例如每天只發佈一張照片,那就是Bereal。我曾經有個“假公式”,我顯然不是Anthropic的數學家,但這公式大概是這樣的:社交網絡是由格式、產品受眾和氛圍組成的。對於Instagram來說,我們有了Stories,然後是Feed,最終還有視頻受眾,最初的受眾群體是偏向於有點小清新的攝影師,後來擴展到任何對視覺敘事或者視覺媒體感興趣的人。Instagram的氛圍,即使我們的產品和Snapchat、甚至Facebook有更多的相似之處,氛圍仍然是很不同的。我不知道這個假公式對於AI產品是怎麼樣的,但我覺得應該有某種形式,其中模型的個性可能是一個因素。還有可能是產品的架構、預設性等,這些也會影響整體氛圍。這些氛圍很難衡量,但毫無疑問,它們確實存在。
Harry Stebbings: 我可以問一個難題嗎?當我們面臨這麼多不同的模型和提供商時,開源成為了一條非常可行的路徑,而蒸餾(distillation)則被看作有些可疑。那麼,蒸餾真的錯嗎?如果它最終能推動整個領域的發展呢?
Mike Krieger: 嗯,即使是在各大實驗室內部,我也假設每個實驗室都在使用自己的一些內部方法,蒸餾是非常有價值的,因為它能將最高端模型的知識提取出來,並且使其更低延遲、更具可負擔性等等。所以這確實是一個循環,這樣的進程是有價值的。整體來說,我認為這個問題有幾個層面。首先,我們是否希望任何國家都能從其他國家的模型中進行蒸餾?我個人的答案是,不希望。即便AI技術在增長,也要非常謹慎地從國家安全的角度來看待這一點。其次,要想讓進展以當前的速度發生並持續長期進行,我們需要讓這些實驗室能夠商業化所有的訓練和創新等。我認為在長期內找到合適的模型對此很重要。我覺得開源模型,例如LLAMA,它們能夠從自身的研究、數據吸收和訓練角度來達成這些目標。所以我會說,蒸餾並不是解鎖這些東西所必須的,它還會帶來其他問題,甚至從服務條款的角度來看也是一個挑戰。
Harry Stebbings: LLAMA是不是顯示出模型本身沒有價值,所有價值都在數據上?如果Facebook願意免費提供它,因為他們知道沒有人能夠複製他們擁有的數據,那麼這是不是意味著這一點?
Mike Krieger: 這是一個很有意思的問題,LLAMA的質量是否來自於他們可以使用的數據?我不確定他們是否說過他們確實是用Instagram、Facebook等的數據進行訓練,但顯然他們是可以的,或者是Gemini因為可以在YouTube上進行訓練,所以它會更好。對我來說,Gemini明顯受益於這一點,當他們展示一個良好的視頻理解示範時,我會覺得,嗯,某家公司可能擁有世界上最大規模的視頻資料庫,並能夠在許多這樣的片段上進行訓練。而Facebook的情況就不那麼明確了,我從來沒聽到有人說,“哇,LLAMA真的做得非常好,能夠生成適合社交媒體使用的內容。”它更像是個通用型模型。所以我會回到一個觀點,就是價值完全取決於你的團隊有多強大,你是否擁有進行訓練所需的底層數據,但同時,也要看你的模型在實際用例中的表現有多好。這才是最重要的。其實我幾乎想從這個角度開始,因為評估結果非常有用,對於內部研究和爬升(hill climbing)非常重要,但它們無法告訴我們,這個模型是否能夠在實際的應用中做得出色,或者即使它在某些情境中表現得非常優異,是否只在非常狹窄的情況下才表現好。最終,作為一個創業者,你能否依賴這個模型作為你的產品代表來使用呢?所以我認為,對於實驗室來說,真正的價值來自於團隊,是模型在真實世界中實際執行正確操作的能力,並且擁有足夠少的非確定性,這樣它才不會變得不可靠。
Harry Stebbings: 我再問一個問題,這不是一個陷阱,但我曾在節目中跟Alex Wang和Isa Poolside談過,他們說我們深刻低估了中國在AI方面的能力。你同意我們低估了它嗎?
Mike Krieger: 我同意,關於DeepSeek,大家似乎很驚訝他們擁有一流的研究團隊。如果你在關注這個領域的話,其實這並不應該令人驚訝。
Instagram很早就被中國封鎖了,然後我們看到了一個平行世界的創業公司在興起。想像一下,如果你把Facebook和Instagram拿走,那會發生什麼事?這些產品經常展現出非常高的質量,展示了很多創意,並且是在大規模下構建的,解決了一些問題。人們經常討論的超級應用(super app)和WeChat就是其中一個例子,它們在規模上解決了一些技術挑戰,這些挑戰和Facebook當時所面對的挑戰是同樣規模的。所以,如果低估中國在前沿訓練方面的能力,特別是如果他們能夠獲得計算資源的話,那將是一個錯誤。我認為這種看法更多來自於西方中心主義的視角,這種觀點在更傳統的軟件領域中很常見,認為“哦,他們不過是複製已經在其他地方成功的東西而已。”其實,市場內部誕生的產品,有時會採取差異化的視角,然後有時再向外擴展。我想,TikTok就是一個有趣的例子,它便是在這樣的過程中發展起來的。
Harry Stebbings: 在我們進入決策產品之前,DeepSeek是否讓你重新思考或改變了你在進步過程中的任何方面?
Mike Krieger: 有些架構層面的部分,我不會代表研究團隊發言,因為他們才是專家,但他們可能會覺得“哦,有趣,這個值得我們考慮”或是一些曾經考慮過的點,現在可能值得重新評估。所以在這方面,我們也有這樣的思考。很有趣的是,我們的計劃本來就已經是推出推理模型時展示思考過程。所以這並不是一個重新考慮的問題。但也許看到別人做這個是有趣的,還有一些使用者界面的細節,我覺得GROK現在在這方面也有類似的做法。所以我很想看看這在你的蒸餾問題中會如何發展。這可能是更多實驗室選擇不展示,或者故意隱藏思考過程的一個原因。從產品的角度來看,還有兩個部分,我覺得是DeepSeek中較少被談論的部分。我認為他們能夠從沒有人知道他們到如今在很多圈子裡比Claude還要知名。我的姨媽也給我打電話談DeepSeek,我不是開玩笑。那時的情況真的有點像是陳詞濫調一樣,我在想,“你對DeepSeek有什麼看法?”我就說,“太好了,它突破了。”
AI模型的進步與未來展望
Harry Stebbings: 他們是怎麼突破的,可能是Claude沒有做到的?
Mike Krieger: 我認為,當然現在世界政治局勢也引起了很多關注,並且把這個故事打造成“這個產品更便宜”,無論這個說法是否完全真實,或者他們是否確實解決了某些問題,這就是故事。而事實上,我也曾和我們的市場團隊談過,我認為我們還沒有很好地在外部講述Claude的故事,說明它有什麼不同或者值得注意的地方。比如說,Claude 3在訓練時,跟其他實驗室相比,我們的團隊非常小,但我們還是在前沿訓練一個最先進的模型。而且,我們在訓練中一直都非常高效地使用計算資源。所以我不太清楚是否是他們講的這個故事,還是媒體為他們講的,因為這確實是一個非常引人注目的故事。這樣的時刻的獨特性,對他們而言是一個非常大的一部分,我認為尤其是像1月新總統上任、中國關係等等,這些因素在那個時刻非常契合。所以,我認為這一點很有幫助。第二部分是,DeepSeek從沒有產品到推出了一個有很多細節的iOS應用,這對我來說就像是一次強有力的推動,讓我們意識到我們也需要把一些想法更快地推向市場,而不是像你之前問的那樣過於注重每個細節的打磨,而是更願意把它推向市場並從中學習。因為有時候,體驗的新奇本身就是有價值的。對很多人來說,這是他們第一次體驗到即時的思考過程,這點很有意思。我希望我們能夠早點做這件事,因為這會讓大家對這一新奇體驗產生興趣。
Harry Stebbings: 當你看待使用情況時,發現新興市場的使用率保持不變,而西方市場的使用情況卻幾乎沒有增長。你如何看待它們作為一個具有競爭力的威脅?
Mike Krieger: 我認為,他們已經在某個層次上具有一定的知名度,這讓他們能夠產生持久的吸引力和留存。我認為,如果我們現在這些由AI驅動的實驗室生成的產品,無論是六個月後還是一年後,只是在問問題,或偶爾有些小的主動性,那麼長期來看這不會有什麼區別或者吸引力。真正應該做的,是讓人們使用某個產品後,覺得“哇,我現在可以做一些只有使用Claude、DeepSeek或任何這些產品的人才能做到的事情,這讓我節省了幾個小時的工作,讓我變得更聰明,讓我成為了我生活中重要人的更好夥伴。”它必須超越表面層的實用性。有些人能夠發現更深層次的價值,別誤會,我理解他們的需求,那些人現在就是你的日活躍用戶。但對很多人來說,他們可能只是試著生成一首詩,寫封信給孩子,做一些當下有價值的事情。但我仍然認為,我們還處在AI是否成為大多數人工作中不可或缺的一部分的第一天,而對於大多數人來說,我認為答案是“不”。因此,我認為DeepSeek和我們的產品在市場上的持久性,將取決於誰能持續不斷地做到這一點,並且擁有正確的產品設計、整合和部署方式來真正取得成功。
Harry Stebbings: 作為一名投資者,我經常會問的問題是,什麼時候模型提供商會轉型為應用提供商?我非常想聽聽你對於,什麼樣的吸引力足以讓你投入資源,轉變為應用提供商,而不僅僅是作為模型提供商來支持的看法。
Mike Krieger: 我認為我看的兩個主要標準是,首先,儘管Anthropic的團隊很大,你知道,我們的員工人數已經超過了一千人,但我們的產品團隊可能只有其中的十分之一,這對於Instagram的第二年來說算是非常大了。但對於一家大型SaaS公司來說,這還是很小。我們處於這些差異之間,並且支持像是現在的cloud code,API,cloud AI,cloud for work等各種不同的面向。所以我認為,通用性是非常重要的。即使我們選擇了某個角色或垂直領域,我們也會遵循構建一些通用的東西,可能會在用戶層面上有所專門化,但不會去專注於針對某一特定模型工作流程或用例構建很多垂直化的體驗。這是其中的一個部分。
Harry Stebbings: 翻譯、轉錄、客服,這些是比較橫向的、同質化的東西。這看起來就像是正確的發展方向。
Mike Krieger: 我認為這是正確的,除非有一點,這就是我認為很多有價值的工作流知識意味著你可以在長期內保持一個有差異化的產品。
Harry Stebbings: 就像如果你是重度使用者,是的,或許會這樣,但如果你不是翻譯人員,而是你的媽媽,可能每月只用一次,只是做一些偶爾需要的事情呢?
Mike Krieger: 是的,對。就像我們可以幫助你翻譯,從個別用戶的角度來看,讓你支付10美元每月訂閱費,這感覺有點模糊,因為我認為這些模型已經能做到這些了,對吧?或許你是對的,如果你像在Elevens的控制台和工作台上操作,許多他們所建設的功能顯然是針對那些長時間翻譯或者為一整個工作流程配有穩定語音的用戶。Descript,我認為Descript在AI產品設計方面做得非常好,顯然他們在工作流程上投入了大量的時間。我曾經為一個個人播客使用過一次,然後我就想,哦,這顯然是由那些每天都在這個工作流程中待著,並且完全理解它的人設計的。所以,對,我想我們可能已經對這個問題有了一些共識,那就是在更專業的用例和由此解鎖的工作流程中,確實有價值。而在消費者和甚至是專業消費者層面,從基礎AI產品的角度來看,已經足夠好了。
Harry Stebbings: 當你看到自己今天在什麼領域做得很好,像我們在代碼方面討論的那樣,你是否有計劃將自己的IDE或代碼代理嵌入其中?你如何看待這一點?
Mike Krieger: 從產品的角度來看,我認為我們必須小心地選擇我們的賭注,即使是開發。我們開發了Claude Code,這是一個我們內部首先推出的命令行代理式編程工具,因為我們只是想加速我們自己的團隊。在看到它運行了幾個月後,我們認為這不錯,它並不是解決所有編程問題的方案,也不能取代IDE,但在很多情況下它對我們來說已經足夠有用了,我們希望能讓大家在現實世界中使用它。推出產品從來都不是免費的,對吧?你需要給它命名,並且找到適合的包裝,還有市場推廣的部分。所以我們會謹慎行事。我對現在這些模型的看法是,你仍然需要動手編程,並且需要進行這樣的交流——“我做了這個,這對嗎?”“嗯,我們就朝這個方向走。”“對,這太好了,讓我們部署。”或者我們走錯了路,那就得把堆疊錯誤退回來,然後再繼續前進。這也是為什麼我認為在某些任務類別中,這種介於IDE和完全認知開發之間的角色會有其作用。完全將任務委派給AI可以處理某些任務。我們的產品工程師非常喜歡Claude Code,因為許多產品工程工作都是這樣——“我們得更新後端,創建前端,提交這些東西進行翻譯。”然後,“這還是有問題,讓我來做。”這就是一個從端到端的工作流程,而它在這些可以跨越許多不同任務的代理式功能下表現良好。我上週做了兩次Pull Request,加入Anthropic以後,我已經有一段時間沒寫代碼了,這讓我有些難過。不過我終於可以使用Claude Code了,雖然我從來沒有開過我們的代碼庫,也不知道它是如何結構化的。但Claude Code很擅長找到包含正確部分的文件,並做出修改。當然,並不是每個人都處於我這種情況,但對於這些特定的用例,它確實很有價值。所以當我考慮到編程領域以及我們如何能夠在這裡發揮作用時,我認為它確實在代理式功能上有優勢,而不是在IDE領域。還有其他公司,像是他們每天早上醒來和晚上入睡時都在思考如何做出一個偉大的IDE。這包括像是低延遲自動補全,正確的整合,以及如何與VS Code插件生態系統互動等等的複雜問題。這裡有很多工作是有價值的,但和我們的工作是不同的。我認為我們能夠發揮作用的是,讓我們與這些模型進行交流並在代理式循環中執行真實的工作,但要認識到它們目前還沒有達到可以讓它們在很多用例中自由運行幾個小時的地步,你仍然需要有更多的人工參與。
Harry Stebbings: 你合作過的公司有Cursor、Codeium、Statblitz等。我的問題是,當你看到像你說的那樣,這是你自從加入Anthropic以來第一次寫代碼,並且開發者行為上所看到的變化,那麼你認為三到五年後,軟件開發者的角色會是什麼樣子呢?
Mike Krieger: 是的,我認為它已經開始看起來不同了。我是GitHub Copilot的早期支持者,我記得我的引用曾經出現在首頁一段時間,不知道現在還在不在,因為我看到了它的潛力。即使是GPT-4推出之前,還沒有多模態功能時,我也在試著用它做Swift的開發,我會畫出我為Artifact設計的屏幕的ASCII藝術,然後去泡杯咖啡,因為那時候它速度很慢,回來時它已經有了80%的版本。當然,現在它會是95%到99%的版本。像37Sonnet這樣的工具,我認為未來很重要的技能會變成是多學科的,它不僅是知道該構建什麼,還要知道如何實現具體的細節。我很喜歡我們的工程師,因為許多,也許是大多數我們的好產品點子來自我們的工程師,來自他們的原型設計,我覺得這就是最終很多工程師的角色。第二部分是,當我們突然間主要在評估AI生成的代碼時,代碼審查會發生很大變化。我甚至親身經歷過,我提交了一個Pull Request,回來的評論中有一些是,“對,Claude Code有時會這樣。我們在這種情況下其實不使用默認參數。”我當時想,哦,該死,如果是我編碼的話,應該會更早注意到這些模式。因此,這兩方面是需要發生的。一方面,模型和代碼庫的基礎設施需要更好地學習代碼審查,以便它們能夠生成對公司來說更具有表現性的代碼;另一方面,我們如何從主要是代碼編寫者轉變為主要是模型的委派者和代碼審查者。三年後,我認為工作會變成這樣:提出正確的想法,做好正確的用戶互動設計,弄清楚如何正確地委派工作,然後如何在大規模上進行審查。這可能是靜態分析的回歸,或許是AI驅動的分析工具,來檢查生成的代碼,比如是否存在安全漏洞,是否有其他瑕疵,是否有錯誤等。計算機使用會在其中發揮作用。所以你可以看得出來,我對這個領域非常興奮,自動化UI測試將會是一個很棒的突破,讓你可以在未來一年內委派一項任務,當你回來查看時,它會告訴你,它評估了這三個方法,並測試了它們,還讓另一個代理在瀏覽器中嘗試過這些方法,這個是最有效的。我還通過另一個代理對它進行了漏洞測試,看起來一切正常,我們只需要幫你解決一個問題。“讓我們審查這個關鍵代碼段,確保它正是你想要的。”這樣你就會突然有更多的管理者和委派者身份,而不僅僅是處於循環中的合作者。
Harry Stebbings: 你說過三年聽起來很荒謬,一年會更現實。我同意你的看法。當我們看看規模化的速度時,你覺得我們會在產品發布和開發速度上達到一個瓶頸或漸近線嗎?因為現在發展的速度確實很快。回到我們之前的討論,會達到這個瓶頸嗎?還是我們會繼續保持指數增長?
Mike Krieger: 這是一個我常常思考的問題。我開始這一年時,回顧了我們的產品開發過程,並檢查了我們在哪些地方已經將Claude集成進來,哪些地方還沒有。當你查看時,你會發現,Claude可以幫助初步產生ID並把它轉化為PRD(產品需求文檔),在編程方面也能發揮作用,甚至可以幫助總結許多關於產品的討論,找出爭議點,推動對齊。不過,實際上,確定要構建什麼還是最難的部分。這才是至今唯一仍然需要人們面對面討論,權衡利弊,或者是去Figma探索後再回來解決的問題。所以,像任何動態系統一樣,如果你優化了一個部分,突然間其他部分會成為瓶頸或關鍵路徑,對齊就是其中之一。決定構建什麼,解決真正的用戶問題,還有制定一個凝聚的產品策略仍然非常困難,並且我認為模型離解決這些問題還至少需要一年。這就是限制所在。這也是為什麼我對於至少初創公司能夠探索這個領域充滿信心,因為我記得在Instagram和Artifact時期,當只有幾個人時,對齊問題就是一個下午的咖啡時間,而不是像大公司那樣需要管理承諾和顧客的需求。這仍然是一個非常人性化的問題,我認為我們至少還需要三年才能看到模型在這種高層次的抽象問題上有所突破。
Harry Stebbings: 最後一個問題,我得問一下,關於我們提到的終端產品和它們的構建。當你想到為消費者構建終端產品與為公司構建API業務這兩者的平衡時,你會如何看待這兩者之間的取捨?
Mike Krieger: 關於這個問題,我確實思考過很多。我認為,通過第一方產品,我們學習的速度會更快。舉個具體例子,Claude Code內部部署一週後,我們就發現其中一個工具沒有被有效使用,這個問題直接帶到了下一代3.7版本的更新中。這就是內部產品如何直接促成模型改進的一個例子。當然,與第三方產品相比,這樣做要困難得多。第三方會告訴你如果有問題,但這種反饋有時候沒那麼直接。即使我們與一些你提到的編程初創公司緊密合作,效果也還是有所不同。所以,這樣的學習是有價值的。然後還有一些品牌和忠誠度的問題。如果你能為消費者產品打造一個品牌,這會比僅僅提供API更容易。比如說,我們為許多編程產品提供支持,這對用戶來說是可見的,很多時候會出現在下拉選單的預設選項中。如果你知道的話,你會認識它,但並不是每個人都知道,這也不是他們下載的產品,並不是他們會和他人分享的東西。然而,我們從API業務中獲得了巨大的分發渠道,並且我們不打算創建每一家公司。我們能夠像在投資領域那樣運作,擁有更多的機會,並且不是每次都必須成功。因此,從資源分配的角度來看,這些方面的投入其實是相對均衡的。我認為,唯一稍微不足的是兩個方面。一方面是對第一方產品的迭代速度還需要加快,這是我現在最關注的問題;另一方面,在API方面,我們還需要思考如何構建比“進來的tokens,出去的tokens”更高層次的抽象。每次我們這麼做,都會從人們那裡收到很好的反饋。
因此,無論是幫助模型計劃並進行代理式工作,還是讓模型構建更多的知識圖譜和企業內部運作的知識庫,或者是完美的工具使用,還是理解大量的上下文並讓模型擁有超越對話的記憶,這些問題我們都值得在API方面解決,因為這些是我們可以直接將我們在訓練方面學到的知識映射到API上,並圍繞這些知識構建優秀產品的領域。所以我對這兩者的看法就是這樣。這是一個新的問題。Instagram時期就比較簡單,95%是產品,5%是API,這就足夠了。
Harry Stebbings: 你會做什麼來提高產品的開發速度,特別是在消費者端產品方面?
Mike Krieger: 我認為有兩個方面。一個是意識到我們其實還在運行一個比較大的公司劇本,雖然我們的公司有很好的牽引力,API業務也做得不錯,Claude AI和升級版的Claude Pro都有使用者,但這仍然處於早期階段,還是生死存亡的時刻。所以我們必須以這樣的心態運作,提前更快地聚集合適的人才,並且不受組織界限的限制。我們現在的組織變得有些僵化了,像是這個任務是這個團隊的,這個是那個團隊的,或者說,這個工作這個季度做不了,因為它不在這個團隊的範圍內。我理解組織會發展,這些變化有些是自然的,但現在我們無法承擔這樣的情況。所以現在我們做得更多的是,找出誰是對的人,讓他們聚在一起,排除其他干擾,然後像是,我也要清理掉我的日程,讓我更多地專注於產品審查和設計審查,而不是行政管理。
Harry Stebbings: DeepMind展示了約束的好處。尊敬的,你和OpenAI是否擁有太多資金?
Mike Krieger: 我覺得這樣說比較合適,我們產品的採用速度超過了它們實際的產品市場契合度,因為它們仍然是目前接觸模型的最佳方式,但我不認為這能長期持續下去。所以我覺得這不是一個可以依賴的地方。第二,我認為我們其實還沒完全滿足用戶需求,因為我們的產品還沒做到最好。這是我每天早上醒來都在擔心的事,或者說,根據情況也可能是我的動力源泉。總之,我覺得我們還有很多工作要做。
Harry Stebbings: 聽起來不錯,我們來做一個快速問答。我說一個簡短的陳述,你給我你的即時想法,好嗎?
Mike Krieger: 聽起來很棒。
Harry Stebbings: OpenAI做得比你們更好的地方是?
Mike Krieger: 他們在發布V1版本時比我們快,甚至在模型尚未完全成熟時也敢於發布。
Harry Stebbings: 他們比你們做得差的地方是?
Mike Krieger: 可能是個性方面,以及他們構建的功能是否能夠保持一致性。
Harry Stebbings: 你最尊敬的其他模型是誰?
Mike Krieger: 我認為他們平衡了第一方產品開發和規模化使用的API。我們在Instagram時有一個原則,那就是“先做簡單的事”,我覺得他們經常做的是先把簡單的事情做好。
Harry Stebbings: 如果讓你從頭重建Anthropic的產品和技術堆棧,你會怎麼做?
Mike Krieger: 這個問題我很喜歡。
Harry Stebbings: 我也很喜歡這個問題,這是一個好問題,不是嗎?
Mike Krieger: 是的,這確實是一個非常棒的問題。
我認為我們去年建立的一些東西,現在看起來它們可能帶來了一些代價,這聽起來可能有些技術性。我指的是信息架構,這聽起來像是非常極客的描述方式,但基本上就是人們不應該去思考像是專案、工件、聊天記錄之間的關係。應該拆掉一切,問自己,究竟什麼才是真正重要的,是你是否擁有正確的上下文,是否能夠始終知道下一步該去哪裡,Anthropic和Claude本身能否作為一個有用的指南,幫助你知道最重要的工作是什麼?這是一個全新的范式,與創建一個專案並學會如何使用它的過程大不相同。所以這是產品方面的情況。我認為這是最根本的問題。至於技術堆棧,我的意思是Claude AI和ChatGPT.com最初都是為了展示模型而建的,而不是為了支撐一個更複雜的多產品體系。我們現在有一個主動的努力在拆解這些東西,並重建核心的用戶體驗,讓它更符合使用需求。現在它的體驗感覺不太好,像是從一個當時很有用途的產品演變過來的,但現在被要求做更多的事情,因此每次增量的更新都變得更難,速度也變慢了。
Harry Stebbings: 在過去的12個月中,你改變了對什麼的看法?
Mike Krieger: 就是對第一方產品的重要性。我當時看到API業務的增長,認為應該更多投入在這方面。但我現在認為,如果不在第一方產品方面同樣投資,甚至更多投資的話,將來可能會錯失機會,缺乏持久的護城河。
Harry Stebbings: 遲到了這一點,你覺得有多大的損失?
Mike Krieger: 我認為是相當大的。如果你深思熟慮的話,理想情況下,關於“有不止一個領先的AI產品可供使用”這個故事,我們應該抓住這個敘事。我認為我們在這方面有所錯過。
Harry Stebbings: 在AI領域,還沒有人討論的你認為至關重要的重大技術或產品挑戰是什麼?
Mike Krieger: 隨著模型的進步,它們會變得更強大,會更加有知識,這是個顯而易見的標題。比如說,它們可能會涉及到從非常親密的事情到企業角度的敏感資料的各種問題,或者它們會接觸到你公司內部的所有信息。然後大家都喜歡談論代理間的互動,對吧?但我覺得很少有人會想到並討論這個問題,就是你會信任你的MIC代理或Harry代理在外面活動,且不會被破解或洩露它所知道的非常個人或敏感的東西嗎?我覺得我的比喻是我五歲的女兒。看著她和剛認識的人交流很有趣,因為她無法區分家庭內的私密事務和可以與新朋友或超市結帳時的人討論的事情。所以這種辨別力是人類隨著時間的推移才能習得的,而我認為這對於模型來說,是一個被低估並且可能還沒被充分研究的問題,因為模型的本能是想幫助用戶,而這並不總是符合我們所需要的。有安全性方面的考量,同時也有隱私和數據安全方面的問題。
Harry Stebbings: 你擔心你的五歲女兒會比與人類交流更習慣與模型和代理進行對話嗎?
Mike Krieger: 我和Alex Wang討論過這個問題很多次,他有一個關於未來大多數朋友會是AI朋友的想法,我不認為他錯了。我認為這樣的情況已經開始出現,比如人們在網絡遊戲中有很多互動,有些是NPC,甚至可能會在這樣的環境中更舒適地存在,即使你並未突破某些社交障礙。所以我擔心的是,我的女兒性格非常外向,我不太擔心她在這方面的問題。但讓我們從更廣泛的角度來看,這裡有很多可以學到的東西。假設我是一個相對內向的青少年,我可能會從一些AI的模擬互動中受益,這有助於我練習一些社交技能來提升自己。另一方面,這並不是完全替代真實的互動,它就像是讀過一篇文章說明如何處理和高中女友的第一次爭吵,和實際經歷那個時刻的感受是完全不同的。這就像是那個經典的問題,是“中文房間”的實驗,但其實是另一個思想實驗,有人待在一個只有黑白的房間裡,只能讀到關於紅色的知識,然後他走進一個地方,看見紅色的東西,這兩者在質上是有區別的嗎?絕對有。與模型進行交流,甚至是情感上的角色扮演,和與真實人類進行相同互動的感覺確實不同。這無疑會成為未來人類互動的一個有用組成部分,但並不能完全替代真實的交流。
Harry Stebbings: 在一個由AI主導的十年中,歐洲會變得更有 relevance 還是更少呢?
Mike Krieger: 我希望歐洲能夠發展得很好,因為我對很多歐洲地方都非常喜愛,我小時候也曾在葡萄牙生活過。我看到了一個有趣的、也許有些悲觀的觀點,認為如果現實世界的經歷和人類互動變得更加重要,那麼歐洲將成為更有價值的地方,成為可能是全球感官經歷的首都。如果這一切都依賴於這一點,這感覺有些奇怪,也有點有限。我認為,從歐洲的角度來看,有趣的是它有哪些特徵。歐洲有一個我非常尊重的地方,就是他們往往非常堅定地維護一些關於生活方式或社會的理念,並且將它們不一定優雅,但至少會嘗試通過最佳實踐甚至法律來加以固守。因此,即使我們在思考設計我們的產品,處理數據隱私,並且銷售給德國用戶或公司時,會遇到一套不同的問題,這些問題通常是非常有幫助的問題。所以,也許這裡的樂觀情景是,這些問題實際上對每個人都是相關的,並且他們會成為提出這些問題的前沿者。從實驗室的角度來看,這是一個更難回答的問題。我認為這可能涉及對計算資源的訪問,也許他們會向價值鏈的上游發展,如果事實上構建應用在這些模型之上變得更加容易,你能夠從0到1並且比這些擁有數千萬甚至數億用戶的大型實驗室更加靈活,這些實驗室必須在這樣的速度下慢慢前進。
創新能在那裡發生嗎?也許可以,但它可能需要不同的監管和初創生態系統環境,才能真正實現這一點。
Harry Stebbings: 最後一個問題。Dario曾說過,這一代人可能活到150歲。我稍微簡化並總結了他的話,但總的來說,這可能是那一代人。我非常樂觀,我的母親患有多發性硬化症,我相信我們將通過AI找到像MS這樣疾病的治療方法。你同意他的樂觀態度嗎?你如何看待AI在延長壽命和人類壽命方面的作用?
Mike Krieger: 是的,我認為潛力巨大。我認為現在AI正在幫助的領域包括關閉藥物發現的環路,加快臨床試驗的進程。Novo Nordisk曾經需要大約15周的時間來完成臨床試驗報告,而現在他們使用Claude,僅需20分鐘就完成了。這是一個顯著的改變。當然,這背後是幾年的研究積累,所以我並不是說我們把數年的工作縮短為幾周或幾分鐘,但這是過程中一個我們能加速的步驟。這就是現在使用模型的情況。然後你還可以看到Patrick Collison等人創立並資助的科學和研究機構——Arc,他們正在開發細胞的基礎模型,通過這些模型,你可以進行實驗,這應該能大大加速藥物發現和實驗的過程,因為突然之間你就能縮短那個循環。所以我對此非常樂觀。現在有很多地方AI仍然沒有得到充分利用,遠低於它的潛力。我認為,很多我們這一代最聰明的人,曾經專注於提供更精準的廣告,可能當時這是有意義的。但我認為今天,很多人正在致力於如何創建在多個領域中都非常有用、有價值且智能的模型。
Unknown Podcast Host/Narrator: Mike,你真是太棒了。
Harry Stebbings: 非常感謝你讓我毫無預警地完全問完所有問題,但你真的很棒。
Mike Krieger: 我的榮幸,真的很開心參與這次對話。