原文連結: Databricks創辦人 Ion Stoica:將學術開源轉化為創業成功

Berkeley教授 Ion Stoica,Databricks和 Anyscale的共同創辦人,將開源專案 Spark和 Ray轉變為成功的人工智慧基礎設施公司。他談到了在學術界和 Databricks中建立合作夥伴關係的重要性。特別是與 Microsoft的合作加速了 Databricks的成長,並促使 Spark在數據科學家和人工智慧工程師中佔據主導地位。他還強調了複合人工智慧系統和開源模型如何幫助企業客戶從數據中獲得最大價值。

Ion Stoica:總的來說,這就是我們的方法。我們也會在合作夥伴關係方面採取積極態度,即使這些合作夥伴可能會競爭和重疊。因為你必須相信自己——至少在 Spark方面——你可以打造最好的產品。我們在內部常說,如果其他人能為 Spark打造更好的產品,那麼我們就應該失敗,對吧?所以這種對我們能為 Spark打造最佳產品的信心一直存在。最終,如果 Spark獲勝,我們就會獲勝。

Stephanie Zhan:大家好,歡迎收聽 Training Data。今天我們很高興邀請到 Ion Stoica,他是加州大學柏克萊分校的計算機科學教授,同時也是 Databricks和 Anyscale的共同創辦人。他擁有獨特而傑出的職業生涯,既是一位頂尖教授,又是真正具有傳奇規模公司的創始人。今天我們將深入探討諸如 Databricks在人工智慧領域的定位、像 Spark和 Ray這樣的研究專案如何導致 Databricks和 Anyscale的創立、他如何從一開始就將研究專案與產業緊密聯繫、他實驗室中的新專案如 VLLM、MemGPT、LMSYS和 Vicuna,以及他接下來在思考哪些研究領域。

Ion,非常感謝你今天來到我們的播客。首先,我們很想聽聽 Databricks希望如何融入整個生態系統,特別是在最近的一些產品發布之後。你個人最期待什麼?

從數據科學到人工智慧平台

Ion Stoica:首先,感謝邀請我來到這裡。我認為對於 Databricks來說,我們一直想要提供一個端到端的平台,幫助我們的客戶從他們的數據中獲得最大價值。而今天,從數據中獲取價值的最佳方式之一就是使用人工智慧的這些新發展,包括大型語言模型和其他一切。

值得注意的是,這從一開始就一直是我們的願景。實際上,創建 Spark的主要原因之一就是為了解決——加速傳統機器學習算法,對吧?並且擴大它們的規模,對吧?所以在某種意義上,對我們來說這是一個完整的循環。我們從人工智慧、機器學習開始——經典機器學習,現在我們又回來做更多的人工智慧,因為要利用數據並從中創造價值。

Sonya Huang:你提到你們是圍繞著實現經典機器學習而創立的。你如何看待當前的人工智慧時刻,它有什麼相同和不同之處?我很好奇,你們針對這個時刻做了哪些具體的事情,比如收購 Mosaic等?

Ion Stoica:是的。當然,現在圍繞人工智慧的發展勢頭是完全不同的層次,對吧?你只要看看外面的投資就知道了,對吧?這就說明了很大一部分故事。所以我認為很明顯,我們看待它的方式是,利用人工智慧並在其中取得成功並不容易,對吧?人工智慧生態系統在複雜性上不斷增長。它不僅僅是對模型的簡單調用。現在你有很多技術,比如 RAG和 Raft,來提高你的人工智慧應用的準確性,對吧?

顯然每個人都對人工智慧感到興奮,因為它解決了很多問題,產生了很多頭條新聞,但這還不是你想要的。你想要人工智慧的產品。我們今天看到的很多東西仍然是很棒的演示,對吧?演示具有啟發性。當人們看到演示,比如 ChatGPT解決這類問題,奧林匹克數學問題,很容易認為「哇,做到這一點,它就能做任何事情」,對吧?但是從演示到生產是一個很大的步驟。演示意味著你需要找到一個實例,至少一個實例要真正令人印象深刻。所以就像存在這樣的實例,對吧?但當你從演示轉向產品時,當你有一個產品時,它必須適用於所有情況,對吧?這就是巨大的差距。

所以這就是為什麼要努力提高準確性,提高可靠性,當然,盡可能消除幻覺。並且真正找到它在哪裡提供最大價值,你知道,因為你可以將人工智慧應用於1000個用例,但哪些用例會為你提供最大的價值?我認為這也是我們試圖幫助客戶的地方。所以要引導他們如何成功地將人工智慧應用到他們的產品、他們的主要業務、他們的服務、他們的業務中。

為什麼要訓練自己的模型?

Stephanie Zhan:在這方面,我認為 Databricks AI發布中最有趣的事情之一是 Databricks創建的新的通用開源大型語言模型 Deepbricks。訓練自己的模型並開源的原因是什麼?你認為這個模型最好的用例是什麼?

Ion Stoica:是的,我認為主要的——如果你看看我們的主要市場,就是企業和企業客戶。他們確實對數據隱私、機密性有很多顧慮,而且顯然他們想要控制權。不僅如此,他們還想要可審計性,對吧?他們希望能夠審計使用了什麼數據,產生了什麼結果,以及用什麼數據做出了什麼決定。所以這就是為什麼一般來說,企業在其他條件相同的情況下,會傾向於使用可以在他們的機器上或在他們的 VPC中託管的開源模型。

所以這是發布 Deepbricks的原因之一,就是幫助我們的客戶。然後客戶在許多這些情況下,他們從這個模型開始,然後用他們自己的數據進行微調,並針對他們特定的用例進行優化,對吧?再次強調,我們的企業客戶,他們想要開源模型,他們想要盡可能多的控制權和可見性。他們想要隱私和機密性,特別是在最近廣泛報導的數據洩露事件之後。另一件事是,你知道,Databricks的 DNA就是開源。不僅是 Spark,還有 Delta和 MLflow以及許多其他項目。

Stephanie Zhan:關於 Deepbricks的另一個我認為很迷人的事情是它出色的程式設計能力。你認為是什麼讓它成為如此優秀的程式碼模型,特別是與 CodeLlama-70B這樣的模型相比?

Ion Stoica:看,我認為這是關於——顯然是關於數據和如何訓練它。而且這是——我認為 Databricks的一個主要優勢是 Mosaic,對吧?我們還擁有完整的訓練基礎設施,因為我們不僅有數據,還有整個訓練和微調的基礎設施。這使得為不同用例優化模型變得更容易,也更具成本效益。顯然,輔助程式設計是這些企業中非常重要的用例之一,因為軟體工程師仍然非常昂貴。

Stephanie Zhan:是的,很有趣。

Ion Stoica:所以讓你擁有的人——而且不僅如此,如果你是一家大公司,比如說,我不知道,Ford或類似的公司,招聘頂級軟體工程師是非常困難的。所以讓這些人富有成效,對他們的業務來說極其重要和關鍵。

Sonya Huang:你提到 Mosaic是戰略的關鍵部分。那麼,你認為在這個人工智慧戰場上,你最重要的棋子是什麼?我想像 Mosaic是其中之一。你的大多數企業客戶是否都在尋求訓練自己的模型?Mosaic和你的其他收購如何滿足客戶的需求?

Ion Stoica:是的,我認為有——就像有一些企業想要——所以這又回到了預訓練,然後是微調,以及在你自己的硬體上、在你自己的 VPC中、在你自己的機器上使用模型。你知道,你租用它,你自己的。

你可能會預期只有少數企業在做預訓練,但確實有一些在用他們的數據做預訓練。你有足夠的數據。他們中的很多人想要做微調,對吧?因為看,如果你是一個企業和公司,你想要改善你的業務,你擁有什麼?你擁有什麼是別人沒有的?你擁有而別人沒有的就是數據——關於你的業務、關於你的用戶的數據,對吧?所以因為這是你擁有而別人沒有的東西,你想要利用它,對吧?那麼你如何利用它?再次強調,有很多方法,你嘗試不同的方法來做到這一點,對吧?

一種方法是關於微調用戶數據,你有一個開源模型,你在上面進行微調,對吧?另一種是使用 RAG等技術。但是你要做任何這些事情,然後你想要在你自己的 VPC中做,以保護安全性,要有安全性邊界,你想要這樣做是為了保護用戶的機密性。顯然現在,GDPR、加州消費者隱私法等等,有很多法規,而且法規的數量還會增加。所以你可以擁有一個開源模型,你可以進行微調,你可以在你自己的 VPC中使用 RAG,這是一個非常有說服力的價值主張。

Sonya Huang:嗯。你是否發現你的大多數客戶都想採用這種方法,而不是使用市場上的 OpenAI和非常強大的閉源模型?

Ion Stoica:我認為企業——我們仍然處於早期階段,顯然有許多企業正在使用 OpenAI做不同的用例和應用。我相信 OpenAI和 Microsoft Azure會推出新產品,提供更好的機密性和安全性。但最終,我之前說過,在其他條件相同的情況下,作為一個企業,我會更傾向於擁有更多的控制權、安全性和戰略性,對吧?就像這樣會減少某種程度的鎖定或類似的情況,對吧?所以我認為這就是我們在說的。如果開源模型能夠在對企業重要的用例中趕上專有模型,它不需要完美,對吧?對於所有特定的用例,你只需要在重要的地方非常有競爭力,那麼企業就會更傾向於選擇這些他們擁有更多控制權和更安全的解決方案。

開源模型是否已經趕上?

Sonya Huang:你認為我們離那一刻還有多遠?你認為我們今天已經達到其他條件相同的情況,還是你認為我們什麼時候會跨過這個門檻?

Ion Stoica:就開源與專有模型而言?

Sonya Huang:是的,開源在核心用例上達到同等水平,其他條件相同的情況。

Ion Stoica:所以你有很多用例。再說一次,它是開源加上數據。而現在,應用程式更複雜了。它不僅僅是對大型語言模型的調用。你有這種——叫什麼來著?你組合。你有一個由許多組件構建的應用程式,這就是我們所說的複合人工智慧。所以實際上,如果你能建立一個應用程式來做推薦或類似的事情,或者為特定工具做程式設計的輔助工具,你實際上可以做得比 OpenAI或最新的 ChatGPT更好,因為你有更多的數據。

而關於 Databricks的另一件事,我認為也有相關公告,就是通過 Unity Catalog之類的東西,你可以訪問並了解數據的結構,這極大地幫助你提高應用程式的準確性,對吧?所以不僅僅是模型。它是你周圍的所有其他東西,以及你輸入的數據的質量。所以我認為「是數據,笨蛋」就像你說的,對吧?就像,最終如此。

Stephanie Zhan:聽起來控制權和安全性是你注意到企業真正關心的兩個主要領域。而 Databricks顯然在擁有數據訪問權方面具有巨大優勢,可以幫助這些公司使用更多……

Ion Stoica:為客戶提供控制權和安全性。

Stephanie Zhan:沒錯。你還注意到他們關心哪些其他因素?成本有多重要?模型多樣性有多重要?

Ion Stoica:我認為成本顯然很重要。是這樣的,首先,你想要——最初重要的是價值。

Stephanie Zhan:是的。

Ion Stoica:對吧?你能提供價值嗎?所以這是第一件事。在那個階段,成本並不那麼重要,對吧?在這裡實際上,在一些早期階段,人們也嘗試使用最強大的模型,比如 OpenAI之類的。但一旦你跨過那個階段,你有一個你認為不錯的用例,為你的業務增加價值,現在你想要擴大規模,對吧?現在你在談論如何部署它。這就是擁有多個選擇,擁有更多控制權、安全性和所有這些東西變得重要的地方,保護用戶數據的機密性、隱私等等。

現在基本上人們考慮如何部署它。這就是開源模型和像 Databricks這樣的平台非常有價值的地方,對吧?再說一次,還有 Databricks中的所有其他組件,就像我提到的,像 Unity Catalog和其他一切來增加你的應用程式的價值。

Stephanie Zhan:是的,非常有趣。

Sonya Huang:我很想和你談談複合人工智慧系統。我認為你們可能創造或普及了這個術語,現在似乎整個行業都在關注這個。也許對我們的聽眾來說,你能解釋什麼是複合人工智慧系統,以及企業在構建這些系統時在考慮什麼?

Ion Stoica:是的。所以複合人工智慧系統基本上由多個組件、多個對大型語言模型或代理的調用組成。這很像——你可以想像當你寫一個程式時,你有多個組件,你有不同的功能和程序來做不同的事情,然後你把它們組合在一起創建程式。這裡也非常相似。你可以使用一個模型來解析數據,提取你可以使用的數據,然後你可以使用,例如,根據提示,如果提示是關於數學問題,你可以使用一個模型。如果提示可能是關於程式設計,你可能使用不同的模型,對吧?

然後你可能用它來格式化結果,對吧?那是另一個。你可能使用它,例如,現在越來越多地談論代理,而對於代理,你必須——你知道,你調用外部服務或功能,如搜索,或者你可以使用計算器之類的。所以現在你有不同的模型,你可以做得更好。而且有一些小模型實際上可以接收提示並將其轉換為函數調用,對吧?所以這就是它的本質。但從概念上思考它的方式就像你寫一個有不同組件的程式,並使其更容易開發、部署和管理,同樣的事情你想要應用到人工智慧應用程式上。

Sonya Huang:所以像一個較小組件的集合一起工作,其中——你知道,部分的總和大於你要替換的那個單一整體。

Databricks:從數據科學家到人工智慧工作負載

Stephanie Zhan:我很想快速深入了解一下 Databricks的故事,我認為這是過去十年中一個令人難以置信的傳奇旅程,但有許多我認為也許很多人還不了解的細節。從今天來看,看起來你們在正確的時間、正確的地點建立了正確的公司,但實際的細節是 Databricks最初是為數據科學家而創建的。由於你們在數據方面所做的所有工作,它恰好很適合機器學習工作負載。隨著時間的推移,你們做出了正確的戰略決策,實際上真正隨著人工智慧市場一起成長。你能分享一些讓 Databricks發展到今天這個地步的學習和旅程嗎?

Ion Stoica:是的,我很樂意分享。我確實認為——很多都是關於正確的時間和正確的地點之類的。這是運氣,或者我認為這些都是真的。要成功需要很多事情都要正確。有些事情你可以控制,有些事情你無法控制。當我們開始時,確實我們專注於為數據科學家建立一個產品,一個雲產品,託管產品,對吧?我們有這種筆記本,我們提供託管和 Spark,我們針對數據科學家。我們針對數據科學家,其中一個原因是因為就像我提到的,Spark早期也針對機器學習,應用機器學習工作負載。而在那個時候並沒有很多數據科學家。那是2013年。

然而,當你環顧四周,大多數大學已經有數據科學課程,對吧?學位。你開始提供數據科學學位,你在說,「好的,我們是——這似乎是一個好的前進方向,一個好的市場。」我記得我們在 LinkedIn上查看有多少數據科學家,因為他們是我們的用戶。最初,數量並不多。

Stephanie Zhan:幾千個。

Ion Stoica:特別是當你將數據與數據庫分析師、分析師和工程師等相比時。我們開始建設,我認為這是一個相當不錯的產品。然後我們在客戶數量方面開始快速增長。最初,我們有小客戶,但之後——而且互動分析、數據科學長期以來一直是最大的工作負載之一,特別是在收入方面,因為互動工作負載的定價比批處理工作負載高。

但我記得我向這些公司推銷使用 Databricks,他們渴望購買它來做數據,做數據科學人工智慧。幾個月後我們會去找他們,因為我們沒有更早去,因為我們看到他們做得很好,他們的使用量在增長,一切看起來都很好,所以沒有理由擔心。所以我們回去看看他們在做什麼,也許我們可以寫一篇博客文章或者他們在做什麼,對吧?營銷等等。令人驚訝的是,在那個時候很少有人真正在做機器學習。我們問他們發生了什麼。

結果發現,顯然要做機器學習你需要數據,就像我們之前討論的。他們意識到對於他們想要的特定應用,他們沒有所需的數據。所以他們現在需要在他們的產品中放入日誌,收集新的日誌之類的。而且他們還需要清理數據,整理數據等等。所以現在我們很幸運,因為 Spark在數據工程、數據處理方面也很出色,對吧?它本質上是一個數據處理工具。所以他們在使用 Spark做數據工程。然後顯然我們開始比以前更多地關注服務數據工程師。這就是我們如何開始的。然後顯然後來,現在有了數據工程,對吧?仍然有所有這些數據科學家在探索和開始建立模型。然後這是一個很自然的擴展,開始為我們的用戶、我們的客戶添加更多產品,就像我提到的,從他們的數據中獲得更多價值。這意味著建立機器學習模型和使用開源模型。

Stephanie Zhan:非常有趣。

Databricks-Microsoft合作夥伴關係

Sonya Huang:我想談談 Databricks-Microsoft的合作關係。我認為這是傳奇般的事情,而且我認為可能仍然是唯一一個真正變革性合作關係的成功案例。也許你能告訴我們這個合作關係是什麼。是關於當時公司的時機嗎?你認為如果沒有達成這個合作關係,Databricks會成為今天這樣嗎?也許談談這個。

Ion Stoica:看,顯然與 Microsoft的合作對我們來說是一個很好的合作關係。我想說的一件事是——這是最明顯的——我們從第一天起就非常——實際上我們非常注重合作關係。我們的想法一直是讓 Spark成功,你知道,希望成為數據處理的事實標準,然後讓 Databricks成為運行 Spark的最佳場所。所以很早就開始,實際上,你知道,在公司成立幾個月後,我們就有了與 Cloudera的這種合作關係,然後我們與 Hortonworks合作。這個合作關係主要是為了推進 Spark,對吧?因為 Spark是在 Hadoop生態系統中創建的,對吧?而這些是 Hadoop公司,對吧?所以我們有這個合作關係或數據堆棧等等。

所以這就是在第一年左右我們有所有這些合作關係,儘管我們知道其中一些公司可能會成為我們的競爭對手,對吧?因為,你知道,只是幫助他們部署、管理和銷售基於 Spark的服務,對吧?所以從某種意義上說,你知道,Microsoft就像——它符合我們試圖與生態系統中的其他組織建立合作關係的方式,即使在某些情況下並不清楚他們是否會與我們競爭。所以只是發展生態系統和發展 Spark,這是優先事項。

我們甚至在某個時候與 Snowflake有合作關係。所以這需要很多艱苦的工作。所以我們一直在尋找有意義的合作關係,對吧?我認為是很好的談判,你知道,Ali等人在那裡做得非常好。但最終我們也需要承諾。就像建立 Azure Databricks——我們之前在 AWS上——花了,你知道,幾十個工程師一年的時間。而你當時是一家小公司。所以從我們的角度來看,這是一個巨大的承諾和巨大的賭注。而且是的,我們——你知道,我認為工程和每個人都執行得很好,這是一個成功的產品,對吧?而且,你知道,Microsoft是很好的合作夥伴,你知道?是的,就是這樣發生的。

我們顯然有點幸運,但總的來說這就是我們的方式。我們也會在合作關係方面保持積極態度,即使合作夥伴可能會競爭和重疊。因為你必須相信自己——至少在 Spark方面——你可以建立最好的產品。我們在內部說,「好吧,如果其他人為 Spark建立了更好的產品,那麼我們就應該輸,」對吧?所以這種始終對我們能為 Spark建立最好的產品充滿信心。最終,如果 Spark贏了,我們就會贏。

Sonya Huang:你認為如果沒有那個 Microsoft合作關係,Databricks會成為今天這樣的公司嗎?

Ion Stoica:我認為會的。可能會花更長的時間,但是的,我認為會的。我們在 Azure上仍然會有一個很好的產品,就像我們在 GCP上一樣。可能會花更長時間,但我看不到任何根本性的動態變化。因為 Databricks的優勢之一當然是一旦 Spark獲勝,我們能夠為 Spark提供最好的產品,我們就處於非常強勢的地位。與其他雲相比,記住我們的優勢之一就像其他人的優勢一樣,比如 Confluent等,是你可以在多個雲上提供服務,對吧?而多雲對大型企業來說越來越具有戰略意義。我們不一定想要被鎖定或想要一個選擇。

Stephanie Zhan:我喜歡你對 Spark和你們內部執行能力的信心和信念,但這與贏得業務和追求正確的合作關係並做任何必要的事情來取得勝利的實用性和積極性相結合。

Ion Stoica:是的。是的,我的意思是,你試圖簡化事情。這就是我之前說的,你知道?你知道,就像最初當你說,「看,你知道,我們必須讓 Spark獲勝,」你知道?有很多——我記得我看了所有這些組合。就像 Spark贏了,產品失敗了,對吧?或者 Spark輸了,但我們有一個成功的產品。或者兩者都失敗了。不,那不是很有趣。或者兩者都成功了,對吧?我們說服自己,你知道,我們需要押注 Spark獲勝,因為這也是產品獲勝最可能的方式。再說一次,不管是好是壞,對吧?但有時候,你知道,可能有很多通往成功的道路,對吧?事後看來,你不能回去嘗試其他選擇。也許在那一點上有更好的選擇,但重要的是要承諾一件事,這希望是一個合理的好解決方案,一個好的前進道路,對吧?再說一次,通往山頂有很多條路,對吧?最重要的是要承諾一條能到達山頂的路,對吧?它可能不是最短的或最容易的,可能不是。但它必須是一條能到達那裡的路。

Stephanie Zhan:而且要到達最高峰。

Ion Stoica:這就是為什麼我們說,「好的,Spark必須贏。」而且我們必須建立最好的——需要成為 Spark的最佳平台。然後我們說要成為數據和人工智慧的最佳平台,我們需要——最終我們知道並假設如果要取得巨大成功,你將超越 Spark,對吧?這就是為什麼公司名字是 Databricks,而不是 SparkLabs或類似的東西。所以這就是——你試圖簡化。一旦你做到這一點,然後你開始執行,好嗎?所以你想讓 Ray作為開源成功,所以你希望每個人都使用它。這就是為什麼你與 Cloudera和 Hortonworks等合作來做這個合作關係。

因為在那個時候有其他解決方案。人們知道 Hadoop Map Reduce,它的時代已經過去了,可以這麼說。所以他們在談論新系統。有像 Tez,它實際上是 Hortonworks的這個項目等等。所以這很重要。然後對於數據科學來說,它是一個利基市場,你知道,我們認為我們可以為它建立最好的產品。所以,你知道,這就是——最終你需要對你押注的東西有信心,對吧?你必須押注,對吧?因為你是一家小公司。如果你不押注,你怎麼能贏?然後你需要有某種程度的信念來做到這一點。

從學術界到產業界

Stephanie Zhan:我很想拉這個線索,轉換一下話題,談談你將很多創業路徑與很多學術和研究背景聯繫起來,這些都是這些公司的根源。你有一個非常獨特的職業生涯,既是一位領先的教授,又是多家獨角獸和十角獸公司的創始人。我認為沒有人能像你這樣在這兩個領域都取得如此規模的成功。也許具體談談 Ray與 Anyscale,或者 Spark與 Databricks,讓我們進入你的思維。這些研究領域在你腦海中開始醞釀的過程是什麼?你什麼時候繼續給它們資源來發展,然後你什麼時候知道是時候成立一家公司以更好、更開放和更快的方式來追求它?

Ion Stoica:這是一個好問題,但也是一個難題。所以我認為——順便說一句,我想先說明的是,顯然也有很多運氣的因素,而且在像伯克利這樣的地方,周圍有優秀的學生和同事。沒有這些是不可能做到的,對吧?這更多是一個學術問題而不是我的問題。但我認為一件事是,我一直試圖專注於問題。實際上,即使對我的學生,我也告訴他們,你需要做的最重要的事情之一就是弄清楚你要解決什麼問題,對吧?因為就像每個來到伯克利或這些頂尖學校的人一樣,他們有一個共同點,就是他們都是優秀的問題解決者,對吧?他們有好成績,你知道,好分數,你知道,寫論文。論文就是關於解決問題。所以如果他們都是優秀的問題解決者,那麼區別就在於你正在解決的問題,對吧?

Stephanie Zhan:是的。

Ion Stoica:所以你從這裡開始。而且我認為就像在伯克利,你不僅接觸到新想法,而且願意承擔風險並進入新領域。這就是我喜歡伯克利的地方。如果你看傳統上,在頂尖學校中,伯克利是第一個開闢新領域的。當然 RISC處理器也有斯坦福的參與。但數據庫、網絡、傳感器網絡,甚至在開源方面,有 Unix BSD,你知道,TCP/IP,對吧?CIB的一部分。所以他們總是有點嘗試實驗。所以我認為這就是那種——你知道,那種文化。我真的很認同它。

然後在伯克利發生的另一件事是,我們有這些實驗室,就像五年期的實驗室,基本上每個實驗室都有一個願景,你知道,是一群相信那個願景的教職員工和他們的學生聚在一起,試圖在五年內實現它。這產生了很大的影響。這個傳統始於40、50年前,由 Dave Patterson、Randy Katz和其他人開創。他們建立了 RISC、廉價磁盤冗餘陣列。現在工作站網絡是商品。這就是——現在每個人都在建立這些巨大的商用機器、服務器集群,還有更多。所以有這些元素,這些實驗室與產業有很強的聯繫,對吧?聯繫。它們得到資助。自從我來——當我來的時候,我實際上看到了這個變化的發生。以前,這些實驗室也得到政府的支持,特別是 DARPA。但在那個時候,那種特定的 DARPA資金枯竭了。

Stephanie Zhan:是的,是的。

Ion Stoica:所以當我來到伯克利時,現在我們需要去記住,你知道,從產業獲得更多資金。我記得從 Google,第一次我們得到——而且在那時是前所未聞的,因為你要求每年50萬美元,對吧?持續四年。所以——但你知道,我們得到了——現在你也有這種與產業的緊密聯繫。這是一個很好的環境來看問題,對吧?去理解問題。然後你可以看到,你顯然會思考趨勢。因為趨勢很重要,對吧?你必須與這些長期趨勢保持一致。你需要押注正確的趨勢,因為這些是你無法改變的事情,對吧?或者很難改變。所以如果你不保持一致,那就不好了。

而這些趨勢,實際上有多個趨勢,而多個趨勢之間會產生差距。這些就是機會所在。比如,對於大數據來說,很明顯你有越來越多的數據,而人們收集的數據量只是在增長。這很清楚,對吧?就像,Google多年前就看到了這一點,他們建立了所有這些系統。但現在每個人都想效仿,對吧?這就是為什麼創建了 Hadoop。

然後你開始看到,你在那個領域工作。我們有所有這些 Hadoop的人來參加我們實驗室的研討會,我們是,你知道,和他們是朋友。我們開始看到問題,然後你試圖使用它們,然後就像例如,Hadoop發生了兩件事。一件事是關於我們實驗室的一個小組。哦,順便說一句,另一件事,在這些實驗室發生的是,它們是跨學科的,對吧?有來自機器學習系統、數據庫、網絡的人,對吧?所以有這些 Michael Jordan的學生想要參加這個 Netflix挑戰,Netflix發布了一些數據,基本上要求人們提供建議,提出建議算法系統,以便——你知道,打敗他們自己的推薦系統。

所以他們來找我們,好的,這是很多數據。我們能做什麼?你知道,告訴他們使用 Hadoop。但 Hadoop非常慢,對吧?因為,你知道,對於——然後,你知道,Matei很快就為解決這個問題組裝了一些東西,其中數據保存在內存中。

另一件我看到的事情是關於——就像我有一家之前的公司,Conviva,它是自己的分析公司。而且它非常慢,我們試圖做到,你知道,就像對於臨時查詢。而且沒有辦法做到。再次,將數據保存在內存中是一個解決方案。這就是我們如何開始的。這是一件事,對吧?然後你看趨勢。是的,這很明顯,對吧?一方面你有越來越多的數據增長速度超過摩爾定律。所以你需要有——它不會適合一台機器,因此你需要使用多台機器。然後唯一的其他問題是你是否會有數據集能夠適合,重要的數據集是否會適合內存,對吧?就像,這是第一個問題。而且它們確實如此,因為人們,即使在做臨時查詢時,我們注意到當你查看來自不同集群的數據時,Hadoop集群,來自 Yahoo和 Microsoft等,我們注意到在很多情況下,實際上當你做查詢和分析時,它們不是在所有數據上。你說比如最近的數據,你想看看昨天發生了什麼,上週發生了什麼,諸如此類。

一旦你得到這個,而且你有很多情況下數據適合內存,而且內存仍在快速增長,在那個時候你就把點連接起來了,對吧?然後就是解決問題。另一件事發生了,為什麼它們是相關的,我在談論學術界和產業界,因為我在告訴,你知道——人們——你知道,學術界有些人,他們反對說,「你知道,這裡有很多工程。這不是你在學術界應該做的。」

但我一直發現一件非常令人滿意的事情是,如果你在一個新領域建立一個系統,而且那個系統被其他人使用,那麼你就處於最佳位置來理解那個領域的新問題。因為人們會以不同的方式使用你的系統,對吧?然後,你知道,你理解這一點。回過頭來,如果你知道問題,你也處於解決它的最佳位置,對吧?所以實際上它直接幫助你的研究走在前面。因為否則選擇是什麼?你在哪裡找到問題?當然理論上有一些問題,很好的問題幾十年都沒有解決等等。但人們做的其他事情是,他們去 Google和 Microsoft等地方,花時間去了解他們需要解決什麼問題。但這有點不令人滿意,對吧?因為你去找別人來了解他們的問題。但問題是為什麼人們不解決這些問題?也許他們不解決問題是因為也許它們在給定時間不那麼重要,也許出於正當理由它們太過未來。但這就是問題所在,對吧?你必須專注於問題,你必須專注於趨勢以及它們如何連接。理想情況下,你想解決一個明天比今天更重要的問題。

閃電問答環節

Stephanie Zhan:我很想轉換話題進入一些快速問答,如果你準備好了。

Ion Stoica:好的,請問。

Stephanie Zhan:在未來五年內,會有人從 Nvidia那裡奪取有意義的市場份額嗎?

Ion Stoica:我認為會有,至少會有,因為他們會——這可能是因為 Nvidia不想被指控有壟斷行為。所以他們的市場份額必須降到某個百分比以下,不管是70%還是80%。所以這將是原因之一。但我認為如果我必須指出一家公司——當然還有雲服務商,出於戰略原因,他們會推進他們建造自己晶片的議程。就像,現在在市場份額方面最大的競爭對手可能是 Google的 TPUs。

Stephanie Zhan:是的,是的。

Ion Stoica:這種情況可能會持續一段時間。

Sonya Huang:你實驗室現在有什麼項目或學生是你想要強調的?

Ion Stoica:你知道,我要在這裡作弊了,因為我認為 VLLM和 Chatbot Arena都很了不起。就像——我不談 Skypilot因為 Skypilot他們已經成立了公司。但我認為 VLLM非常驚人。它是一個一年前的項目,我從未見過如此快速的增長。當然,這也是 AI的一部分。AI某種程度上壓縮了時間,所以這方面有些東西。我認為另一個是 Chatbot Arena,因為看到這個領域的發展真是令人著迷,看到這些不同的模型,它們的優勢在哪裡,它們的弱點在哪裡,我認為能夠第一手看到生態系統和這個領域的發展,這真是令人著迷。

Sonya Huang:你認為基礎模型會商品化嗎?

Ion Stoica:基礎模型是指?

Sonya Huang:像 GPT4或 Claude這樣的。你認為隨著時間推移,在提供這些模型方面會有市場嗎,還是你認為它會商品化?

Ion Stoica:我認為人們會繼續建立越來越大的模型。我認為在服務方面,看起來模型蒸餾效果相當好。順便說一句,模型是指你用較大模型的輸出來訓練較小的模型。這方面取得了很大的成功。順便說一句,這在某種程度上說明了數據對訓練模型的重要性,回到我們早些時候的談話,因為你從大模型獲得更高質量的數據,並用它來訓練小模型。而且效果很好。所以我認為使用多個蒸餾模型來降低推理成本將是一個前進的方向。但是的,我認為為了推進和推動前沿——雙關語——你仍然會看到在更大更大的模型上投入大量努力。

Stephanie Zhan:你最期待在一年、五年和十年內看到 AI世界的什麼?

Ion Stoica:我最期待 AI的什麼?

Stephanie Zhan:是的。

Ion Stoica:看,毫無疑問這是變革性的,對吧?我認為——它會改變很多事情,也許是一切。我認為我最興奮的是,如何使這些 AI系統更可預測、準確、可驗證?如何調試這些系統?所有這些都在軟件工程類技術的領域。這就是我認為令人興奮的地方。

Stephanie Zhan:你對在 AI領域創業的創始人有什麼建議?

Ion Stoica:是一樣的。你知道,專注於問題,不要專注於炒作。炒作是情緒化的,不可靠的。只看事實對吧?就像——看問題,試圖理解問題,並試圖對自己誠實。如果你建立一個應用程序,它是關於生產的,而不是關於演示,對吧?它超越了演示。當然,演示很重要,別誤會我的意思,非常重要。但生產,這是你必須有的心態。

而危險的是有太多的炒作,你認為你可以解決一切,你可以在某個年限內做任何事情。但現在只需專注於你到底要解決什麼問題。說服自己這是一個好問題,說服自己你可以解決它,或者至少你可以有一個最小可行產品,對吧?你可以解決那個問題的一個較小版本,這對你的客戶來說仍然非常有價值。這就是我要說的。是的,沒有靈丹妙藥。