原文連結: AI Agent, 律師和 LLM

Harvey:重塑法律工作的 AI 助手

Atish Nayak

全球化、互聯網和人工智慧在過去幾十年間,使法律工作的需求呈指數級增長。因此,基本上對於法律工作的需求是無限的,因為企業希望進行各種不同的交易、訴訟等。因此,你擁有無限的需求。這意味著供應極為有限,而供應受限所帶來的不幸人力成本就是:長時間工作,而且經常從事非常單調、乏味的任務。我們與我們聘請的律師以及我們的客戶交談時發現,他們並不是為了第五次撰寫同一份文件的第五個草稿,或是為了再次提出相同的法律研究問題而選擇成為律師的。相反地,他們成為律師是為了以創新的方式應用法律、發表法律意見、塑造社會的結構。

Kimberly Tan 感謝您收聽 A16Z AI 播客。如果您對應用型 AI,特別是針對專業領域及可能受監管的垂直市場打造產品感興趣,那麼您應該能從這場討論中獲益良多。本集對談由 a16z 合夥人 Kimberly Tan 與 Atish Nayak 進行,後者是 Harvey 的產品負責人。如果您還不熟悉 Harvey,這是一家快速成長的新創公司,專注於法律產業的 LLM(大型語言模型)應用。

在這次訪談中,Atish 詳細說明了 Harvey 所瞄準的各種法律工作領域,但更重要的是,他探討了任何成功的垂直應用所必須考量的關鍵因素,例如:與客戶密切合作、整合現有工具與工作流程,以及擁有產業內部的專業知識。此外,他也更廣泛地談及 Harvey 如何計劃擴展至其他知識型產業,以及該公司在當前最先進基礎模型之上進行創新與應用的策略。

這將是一場精彩的討論,稍後您將聽到完整內容。不過在開始之前,我們要進行一些聲明:請注意,本節目內容僅供資訊參考,不應被視為法律、商業、稅務或投資建議,也不應用於評估任何投資或證券,並且本節目不針對 A16Z 旗下任何基金的投資者或潛在投資者。如需詳細資訊,請參閱 a16z.com 的聲明頁面。

Harvey 的使命與成長

Atish Nayak

我負責 Harvey 的產品。我在 Harvey 工作已經一年半了,當時我們大約有 30 人,現在我們已經擴展到 250 人了,所以經歷了不少成長過程。我的背景主要是在超高速成長的 AI 新創公司工作,因此在此之前,我曾在 Scale 擔任產品負責人四年半,並且在那之前,我曾在 Shield AI 工作,Shield AI 也是 A16Z 的投資組合公司。能夠第三次參與 Harvey 的超高速成長,對我來說是一種特權,因為這是人類歷史中的一個關鍵時刻,我認為很多事情將會改變,我很高興能夠站在最前線,也許會有很大的影響。

Kimberly Tan

對於不太了解的觀眾或者是在線收聽的朋友,Harvey 究竟是做什麼的?我想很多人知道 Harvey 的存在,但可能不太清楚它的產品提供具體是什麼。

Atish Nayak Harvey 是針對法律和專業服務的領域特定 AI。我們的產品基本上幫助用戶和律師自動化草擬、綜合、戰略建議備忘錄等工作。

Kimberly Tan

明白了。在我們深入探討如何構建應用型 AI 之前,Harvey 解決的主要使用案例是哪些?因為我知道法律或專業服務領域有很多不同的工作流程。

Atish Nayak

大致來說,法律領域可以分為兩三種主要工作類型。一種是交易工作,主要是涉及合併、收購、風險投資、大型交易,這些交易通常涉及大量金錢。另一種是訴訟工作,這是指某人起訴某人,如果案件進入法庭,通常也涉及大量金錢。然後,第三類工作主要集中在內部律師事務所,即企業法律顧問和企業內部團隊。這三大類是我們服務的主要領域。我們在各個領域提供不同的服務。如果你想像一下在合併或收購中需要做什麼,你需要進行盡職調查,你需要了解所有的責任,了解財務狀況,了解目標公司和收購方的潛在問題。因此,每個盡職調查可以分解成大約 10 到 12 個不同的工作流程,我們在這些工作流程中提供幫助,訴訟領域也是如此。因此,我們從高層次來看,重點是集中在這些過程中的不同步驟。

法律市場的技術採用挑戰與機遇

Kimberly Tan

在硅谷的圈子裡,有很長一段時間,人們認為向律所或專業服務機構銷售產品並不是最有利可圖的領域。因為這些機構並不以快速採用技術聞名,很多人認為他們的計費模式並不適合提升效率或使用技術。

我很好奇,Harvey 在這方面有什麼樣的觀察?

Atish Nayak 我認為有兩個方面。一方面是市場,另一方面是 Harvey 所做的具體工作。我認為對任何新創公司來說,市場時機非常重要。

如果你總體觀察一下,當 ChatGPT 在 2022 年 11 月推出時,這確實釋放了 GENAI 的潛力,對很多人來說,尤其是律師、內部法律顧問、管理合夥人、首席資訊官等開始真正理解這項技術,並且開始說,哇,這其實能改變很多事情。在 ChatGPT 出現之前,AI 就像是一個隱藏的東西,大家並不確定如何應用它,但因為它讓大家可以使用,這就像是潘多拉的盒子一樣,法律行業的實踐將會改變。這樣一來,大家都知道這會發生,而且因為大家都知道這會發生,許多企業開始對律所施加壓力,並說:“嘿,我的律所,我們使用 AI,我見過 AI 的實際運作,你們也應該使用 AI 來提升效率,做更多的工作等等。”律所開始感受到來自客戶的壓力。

法律市場,尤其是律所市場,在任何地區都非常競爭。通常會有四五家主要的競爭者互相激烈競爭。因此,對律所來說,展示他們具有創新性非常重要,這樣他們才能吸引更多客戶,並提高效率。因此,這種競爭動態促使大家都希望採用技術。我認為這正是市場時機和 Harvey 所處位置的完美結合。市場有這些宏觀動態和壓力,而 Harvey 一開始,並且現在依然在做得非常好的一點,就是將法律專業知識深入融入到各個功能中。所以,這意味著,一開始我們實際上是由律師來銷售產品。律師擔任客戶經理,而我們的 CEO 也是律師,我們的法律研究負責人實際上也是律師,稍後我會詳細介紹。但的確,我們曾經有律師銷售產品,他們會去律所,講解行業術語,並且展現出極大的同理心,這些律師來自我們服務的許多客戶,他們對業務運作有著深刻的了解,這幫助我們建立了分銷渠道,並順利啟動了市場進入策略。

在產品和 AI 方面,我們的團隊中也有律師嵌入在產品和 AI 團隊中。我們有一個法律研究部門,與產品經理和 AI 工程師密切合作。他們的工作是將法律流程轉化為算法。我們擁有一個代理型或複合型 AI 系統,它基本上模擬律所的運作方式。以律所為例,如果一名合夥人接到一個交易或訴訟,他們會將案件拆解成多個部分,然後可能交給初級合夥人,再由初級合夥人進一步拆解,交給助理,並通過層級傳遞。由於律所通常是層級組織,助理會完成工作,然後將結果交上級審核,最終合夥人將最終結果交付給客戶。我們的律師與工程師合作,基本上會複製這一模型,將不同的任務轉化並具體化為流程,從而使 AI 引擎能夠將其轉換為模型系統。

Kimberly Tan

你認為這些不同的代理工作流程算是替代了人們之前所做的勞動嗎?還是你認為這更像是傳統的代理勞動模式,而不是副駕駛模型?

Atish Nayak 這是一個很好的問題。我認為這有點狹隘。法律行業整體上非常複雜,且正在變得更加複雜,老實說,這樣的行業要應對全球化、互聯網和 AI 的發展是非常昂貴的。在過去幾十年中,AI 已經使得法律工作呈指數增長。因此,對法律工作的需求幾乎是無限的,因為公司希望進行各種交易、訴訟等。所以你有無限的需求。接著,這意味著供應非常有限。供應有限的悲哀在人類成本上表現得非常明顯,通常需要付出非常長的工時,且往往是做一些非常單調無聊的工作。我們和一些律師客戶交談時,他們告訴我們,他們當律師並不是為了重寫同一份文件第五次,或者為了提問相同的法律研究問題。對吧?他們成為律師是為了以創新的方式應用法律,發表意見,塑造社會的結構。所以我們經常聽到這樣的反饋:Harvey 幫助他們節省了 30% 或 40% 的時間,因為它確實幫助他們自動化了那些單調的工作。事實上,前幾天我們的一個客戶說,Harvey 讓他們能夠準時回家陪伴家人,因為它加速了很多工作。無限的需求,很多的供應限制,這對 AI 的幫助來說是非常好的契機。

Kimberly Tan

你能多談談這一點嗎?那種互動模式實際上會是什麼樣的?

Atish Nayak 這是個關於生成式 AI 的普遍問題。那麼,人的成分是什麼?有多少是完全自動化的?我認為現實情況是,假設你正在起草一份 S4 或者 S1。S1 是指公司上市,當你要進行公開發行時,你不會將它一口氣丟進最大的推理模型裡說,嘿,幫我寫一份 S1 然後就完成了,對吧?

Kimberly Tan

那麼所有的銀行家都安全了嗎?

Atish Nayak 是的,所有的銀行家都安全。O1 不會一次性搞定你的 S1。做 S1 或進行併購的過程其實是非常互動的,涉及到雙方,即律所、客戶以及其他所有相關方。所以我們基本上認為這些代理人必須與人類有效協作才能完成工作,因為人類可能有一些特定的意圖是他們還沒有告訴代理人的,或者他們可能有一些數據是代理人其實並沒有的。所以我們在構建這些代理人時,會考慮到如何以一種優雅的、適應 AI 的使用者體驗(UX)方式來進行,這樣它們才能與不同的組織協作,實際完成工作,並且說:“嘿,我寫了這份草稿,我的方向對嗎?給我更多的信息,因為我不知道該如何處理這裡的決策。”

給我這些更多的信息,因為我不知道該如何處理這裡的決策。所以我認為我們將會開始看到更多主動的代理人,這些代理人會積極地聯絡每個公司中的不同人員,並真正有效地協作來完成某些工作。

法律行業的收費模式與 AI

Kimberly Tan

也許再回到我之前問過的問題,就是市場如何改變了世界,以及 ChatGPT 如何成為企業意識到“這隻貓已經放出袋子”那一刻。這是否改變了法律界或律所如何思考收費等問題?因為長期以來,有人認為,法律行業的收費模式是按小時計費的,因此從利潤角度來看,實際上並不重要你花了多少小時,哪怕你只是想回家陪孩子。

Atish Nayak 我認為這又回到了市場動態的問題,當你有無限的需求時,你必須提高效率來服務所有這些需求。我們一開始是採用基於座位的模式,我們基本上是按座位收費。這並不是因為我們不相信基於結果的定價或按工作付費是未來的趨勢,而是因為我們希望讓企業買家能夠理解。我覺得有一種風投界的說法是,基於結果的定價是未來的趨勢,或者它已經在發生。我認為這會發生,但我認為人們必須理解的是,企業其實並不知道如何處理基於結果的工作收費,尤其是對於像 AI 這樣的實驗性產品。所以我認為這會隨著時間的推移而發生。

Atish Nayak 我們不會,我們從不想安於現狀。所以現在仍然有很多精力集中在法律領域。但我認為總的來說,如果你看交易,看看訴訟,看看律師和法律工作,往往有很多專業人士參與其中,而不僅僅是法律專業。例如在一筆交易中,如果你進行的是併購,會涉及到稅務人員,財務人員,還有人力資源人員來整合這兩個團隊。所以總的來說,我認為如果說只有律師能夠使用Harvey並在這筆交易中獲益,那將是對它的誤解。我們的想法是,隨著我們進行這些更大的基於項目的工作流程,利用這些來擴展到,嘿,也許稅務專業人士需要了解和法律人員一樣的東西,只不過可能在這基礎上多一點點額外的信息。所以我們實際上是在利用律師以及他們參與的項目來自然擴展到這些垂直領域。有幾種方法可以做到這一點。一般來說,我們採取的是非常以客戶為導向的方法。所以我們不僅僅是我們很多企業客戶已經把他們的合規和人力資源團隊帶入Harvey,因為你知道,如果你在審查就業合同,人力資源團隊顯然會非常參與其中。所以這是其中一個途徑,就是在企業內部有機地擴展,然後非常以客戶為驅動,與領先的公司合作。因此,我們與PwC合作,基本上建立了定制的稅務和財務盡職調查系統,因為尤其是在國際上,他們是稅法的專家,是財務盡職調查的專家,他們確實幫助我們學到了很多有關這些領域的知識,並真正推動我們朝著這個方向發展。

所以我們已經為這些擴展播下了種子,在接下來的兩到三年中,這些領域將會自然擴展。

Kimberly Tan

當你說“定制模型”或“定制工作流程”時,這些領域具體是指什麼意思?是指像PwC這樣特定的公司嗎?因此,你們其實主動不想引入類似的客戶嗎?

Atish Nayak 特別是對於稅務工作。全球的稅務律師會就某些稅法提出很多問題,如何將其應用於他們的客戶。因此,很多這些知識實際上就在PwC裡面。全球領先的稅務專家,尤其是英國稅法方面的專家,其實都在PwC。所以當我們說我們在那裡建立定制系統時,我們實際上是在使用他們策劃的數據,並且利用他們專家的專業知識和評估來改進這個系統。我們建立了各種精細調整的模型和不同的rag系統,這些系統融合了來自這些客戶的數據和評估。所以我認為PwC在這方面是獨特的,但隨著時間的推移,我們也可能開始與其他專業服務提供商合作。

數據安全與企業信任

Kimberly Tan

我確實想更多談談產品構建,以及你們如何思考評估,如何選擇模型提供商等問題。但也許最後一個問題是,你提到PwC是設計一些你們之前沒有的定制項目方面的一個很好的合作夥伴。我想這首先需要很多信任,因為他們會提供給你們非常敏感的數據,然後還有很多開放的問題,我認為任何為企業構建產品的公司或任何企業買家都會問到。我的數據究竟是如何被使用的?在這個背景下,它會被送回模型嗎?它會不會被用來幫助我的競爭對手等。因此,我很好奇你們如何看待這些問題。

Atish Nayak 我認為這是在企業軟體領域,尤其是AI領域中,經常被忽視的話題。企業準備性不僅僅是指SOC2的合規性。我認為,這是一種文化,你必須從一開始就與你的產品和工程團隊共同建立。因此,我們從一開始就做的一些事情,因為我們從最艱難的客戶開始,他們在全球範圍內處理極其敏感的工作,對他們來說,實際上信任一個相對較小的初創公司來處理這些工作是一件大事。所以我們從一開始就實施了一些政策,我認為其中之一就是對發送的數據有嚴格的無訓練政策。默認情況下,我們所有的文件和資料都不允許Harvey訓練這些數據,甚至Harvey的人員也無法查看這些數據。我們稱這個政策為「眼睛不碰(eyes off)」。Harvey的人員甚至無法訪問我們大多數客戶的數據,因為這些數據非常敏感。另一部分是,我們有一個非常嚴格的外部供應商名單。比如說,我們只允許使用像Azure這樣部署的模型來改善我們的系統和為我們的產品提供支持。這是因為Azure在企業中有很大的信任,所有的客戶都在使用大型的Azure部署,所以他們非常信任Azure。不過,這也意味著,如果有新模型發布,或者像Google Anthropic這樣的工具,或者Twitter上有新的工具出現,我們不會馬上使用它。我們必須對此非常嚴格。我認為這又回到了產品和工程文化的問題。我們必須確保工程師明白,你不能僅僅使用產品或將其部署。我們在這方面非常嚴格。最後一點是,我們很早就聘用了安全團隊,他們的首席安全官應該是我們的前15名員工之一。他真正幫助我們建立了一個非常強大的安全計劃,當他站在CIO或C級管理人員面前時,他們知道我們是正規的,他們知道我們聽起來不像是一家初創公司。因此,我認為這些混合的措施對於獲得信任至關重要。

Kimberly Tan

你對於構建應用AI產品的哲學是什麼?一方面,你可以擁有客戶,這是很棒的。另一方面,每天Twitter上都有新的有趣東西出現,現在每個月幾乎都有新的模型推出。我想,這是一個非常艱難的基礎,讓你能夠在此基礎上構建一個穩定的產品。

Atish Nayak 是的,我認為這有幾種方式。還有另一個問題,我們經常會被問到:你們是更多地專注於現有的工作流程和律師的現有表面領域,還是更多地專注於全新的AI原生用戶體驗(UX)?我想可能需要強調的一點是,對於律師來說,並沒有像IDE那樣的工具。沒有類似VS Code或Cursor這樣的工具給律師使用。律師最常使用的兩個工具是Word和Email,基本上是Outlook。我們正在與這兩者進行整合——電子郵件和Word。但最終,我們其實沒有選擇去建立在現有工具或軟體的基礎上,因為根本就沒有類似的東西可用。因此,我們選擇了AI原生的用戶體驗。

AI 原生 UX 的未來發展

Kimberly Tan

是的,那到底意味著什麼?最終,AI原生的用戶體驗是什麼樣的?

Atish Nayak 其中一個主要原則是,我們希望Harvey感覺像是你的同事,而不僅僅是一個AI或軟體。我們希望它感覺像一個人。如果你在律師事務所或企業中與一個人合作,你基本上可以與他們進行來回交流,並且可以給他們指派工作。比如說,我走到某人面前說:「嘿,能幫我起草一份一對一的披露文件嗎?」如果你是個好同事,他會問你:「嘿,我需要更多的信息,能告訴我這些資料的來源嗎?我應該基於什麼格式和語氣來編寫?我們究竟在處理什麼交易?」然後他可能會起草一份初稿,並說:「嘿,能檢查一下我的工作嗎?我這樣寫對嗎?」我認為這就是我們希望Harvey給人的感覺——你在進行這樣的來回交流,並且在工作中得到指導。

Kimberly Tan

它還是像聊天機器人的界面嗎?還是說,實際上人們使用的是什麼樣的界面?

Atish Nayak 它有點像一種聊天界面,並且會顯示一些動態的界面元件。我覺得我們在這裡要考慮的另一個原則是,有一個叫做「IKEA 效應」的原則,基本上就是這個想法:如果人們幫助建造某物,他們會對自己做的事情感覺更有責任。IKEA 真正利用了這一點。對吧?他們讓組裝傢俱的過程變得非常愉快和有趣,並且在手冊等方面投入了大量的心思。人們對 IKEA 有像教徒般的追隨,因為人們自己組裝它。也許現在他們不再那麼做了,但他們曾經是的。他們曾經是的。對。所以我認為對我們來說,這回到一個問題:你不能單純地用 01 來一次性完成 S1。這個法律工作中有很多來回的交流,這是很複雜的,你需要的是人的獨特數據集。如果我們只是說「嘿,起草這份披露清單」,然後 Harvey 完成了它,沒有人會相信,因為他們根本不知道那背後實際上做了什麼。所以,我們希望在過程中加入這些提示(nudges),我們稱之為肩膀輕拍(shoulder taps),讓 Harvey 在產生最終結果之前,先要求反饋、要求數據、要求意圖。

Kimberly Tan

如果我是個別律師,你能說明一下實際操作是怎樣的嗎?因為我知道,很多 UX 實驗的其中一個問題是,當代理正在工作時,它會顯示並告訴你它在做什麼,但也會有一些停機時間。律師會收到一個小通知,告訴他「哦,回來一下,我有問題」嗎?他們是如何將這個與日常工作結合在一起的,讓他們不僅僅是在那裡監控代理呢?

Atish Nayak 我認為我們的用戶群和我們的產品有一個有趣的點,就是我們並不太受延遲(latency)的限制。我覺得對於許多聊天產品或消費者 AI 產品來說,大多數人都期望即時獲得答案。但由於 Harvey 所產生的結果品質非常好、非常像人類的方式,所以人們能夠接受等待 2 分鐘、3 分鐘、4 分鐘來獲得結果。正因為如此,我們能夠在每一次運行中塞進更多的智慧,更多的模型調用,更多的算法。所以人們能等,並且對等待感到滿意。我們現在也開始添加基本的異步代理(asynchronous agents),它會在完成後發送電子郵件或通知你。所以對我們來說,延遲限制其實並不是一個大問題,這給了我們很多自由度來進行工作。只要代理提供一些它在做什麼的透明度,而不是無止境的旋轉,我覺得對我們的用戶群來說是可行的。

Kimberly Tan

你認為我們已經達到了知道「什麼是最佳的 AI 原生 UI 或 UX 體驗」的程度嗎?如果答案是肯定的,我很想知道它是什麼;如果答案是否定的,那麼你認為現在還在進行哪些實驗,或者有什麼類型的工作流程是人們還沒完全弄清楚的?

Atish Nayak 是的,簡單的回答是:不。我認為聊天是 AI 的命令行。我認為當 MS-DOS 剛出來時,人們只是輸入命令到終端機來移動東西,這就是我們現在在 AI 上所處的位置。實際上,我希望在 2025 年,我們能夠看到更多關於 AI 原生 UX 的創新,開發更多動態 UX 的方式來與模型互動,而不僅僅是基於文本的方式。首先,我認為人們需要意識到的是,大多數用戶,尤其是我們的用戶,提出的查詢或提示都是不夠具體的。有趣的是,現在人們對 AI 的信任度已經高到,他們假設 AI 知道所有的事情。

我們收到了很多支持票,要求進入他們的電子郵件中搜尋某些東西並產生結果,或者問他們上次討論過的某個話題,然後用那個來得出答案。我覺得這是一個教育問題,但也認為 AI 必須再次與個人協作,真正從個人那裡提取意圖,而不僅僅是依賴一次性提示來精確達成。因此,我希望看到更多獨特的反覆交互和指導,而不是僅僅基於文本的提示。我認為在企業中,你實際上需要這種 AI 原生 UX 更多,因為工作非常複雜且困難,而且通常工作是由團隊的人或人類完成的,所以你確實需要一個更完善的自然 UX,而不是像消費者領域那樣,因為使用情境非常多樣,並且 AI 有很多用途,或許最佳的 UI 就是聊天界面,對吧?因為它是如此開放,你可以用一個開放式界面捕捉整個市場,這也是我們所看到的。所以,我確實認為在企業領域,應該有更多有趣的實驗,探索 AI 原生 UX,因為工作流程是如此具體,工作如此困難。因此,再次強調,不能只依賴一次性處理。

模型選擇與基礎設施考量

Kimberly Tan

嗯,有道理。或許稍微轉換一下話題。我很想知道,在你們能談論的範圍內,你們如何看待背後的基礎設施?你們是否主要使用一個模型?如果是的話,那是什麼?你們如何看待隨著新功能的推出,如何更換模型等問題?

Atish Nayak 正如我之前提到的,Harvey 由數百個不同的模型調用組成,基本上是一個代理式或複合型 AI 系統來生成結果。目前,我們主要使用 OpenAI 模型,無論是直接使用 OpenAI 還是通過 Azure 在生產環境中使用。這主要是因為,首先,OpenAI 的模型非常好,並且 Azure 的基礎設施非常好、速度快、安全性強,正如我之前提到的,客戶非常希望 Azure 成為我們的默認雲服務提供商,這也是我們能夠獲得信任的原因。但總體來說,我們並不依賴於 OpenAI。我們其實已經與所有主要的 AI 實驗室合作,基本上是對他們的產品進行評估並提供如何考慮法律推理和共享數據集、共享我們獲得的見解的指導。因此,我們當然也開放使用各種不同的模型,只是出於業務、安全性和基礎設施的限制,我們還沒有實現這一點。

Kimberly Tan

是的,對你們來說,換模型有多容易呢?因為你們可以處理非確定性(non-deterministic)的情況,你可以想像,如果發生一些奇怪的事情,換模型後怎麼運行評估,來確保體驗仍然保持一致?

Atish Nayak 從 AI 基礎設施的角度來看,正如我之前所說,我們從一開始就非常強調模塊化,這樣我們就能夠隨時交換模型字符串和端點。更困難的部分實際上是評估。正如你提到的,每個模型都有不同的性格特徵和行為。對相同的提示或數據進行微調,對不同的模型可能不起作用。所以,交換模型確實需要大量的評估,因為我們想確保它不會降低質量。

Kimberly Tan

那麼你們是否建立了內部的評估基礎設施來進行這些操作?

Atish Nayak 評估對我們來說是重點。我來自規模化背景,我知道人類專家的數據對於建立 AI 系統至關重要。我認為我們在評估方面有兩個主要的考量。第一個基本上是內部評估,用來提升我們的 AI 系統;第二個是外部評估,用來傳達價值。在內部方面,我們有一個混合的人類專家團隊,這些專家有的是內部員工,有的是外部聘用的,來自不同國家、不同業務領域的律師,他們可以進行各種絕對評估或相對評估。絕對評估是指,像是看這段內容,根據這個標準來評分。相對評估則是將我們的算法兩個版本放在一起,並進行比較排名。我們在這方面投資了大量資源,並隨著我們的成長,這方面的規模也在不斷擴大。在外部方面,困難之處在於,很多法律工作實際上是基於主觀意見來處理客觀事實。判斷主觀意見非常困難。

沒有客觀的真相,比如你是否以某種方式適用法律,或者你的解釋比另一個解釋好還是差。因此,外部評估和傳達的過程非常困難。一般來說,法律任務的種類也很多。如果你查看法律任務的分類樹,幾乎有將近 10,000 個葉節點,而律師們其實已經將這些任務做了分類。因此,我認為挑戰之一是,如何向客戶傳達 Harvey 是好用的、準確的,或者不會產生錯誤(即幻想性錯誤)等等。所以我們花了很多時間,並在去年早些時候發布了一個基準,名為 Big Law Bench,它展示了真實的律師日常工作中的可計費任務,這是第一個此類基準。到目前為止,所有公開的法律基準都是多選題。我希望法律可以是多選題,但法律並不是多選題,它是開放式且凌亂的。我們推出的基準就是要告訴大家,這是律師真實的工作,這是 Harvey 的表現。我認為我們做的另一個獨特之處在於,我們不一定是在衡量準確性。我們測量的是模型完成的工作佔比,與 100% 人類回應的比較。

Kimberly Tan

你的意思是時間是衡量標準嗎?

Atish Nayak 更像是總工作量。

Kimberly Tan

明白了。

Atish Nayak 也許它能幫你完成草擬披露清單的 85%、90% 的工作,然後人類再幫忙完成剩下的 10%。原因是,如果你只是從準確性來衡量,沒有人會希望一個 90% 準確的代理系統,對吧?這不是傳達價值的正確框架。即便你只獲得 90% 完成的產品,這仍然比從零開始更有幫助。

Kimberly Tan

是的,然後最後一個問題,稍微偏離一點,但我在聽你講關於更換模型基礎設施的時候在想,如果做評估來確保體驗的一致性且不降低產品質量,對吧?

你對新的 OpenAI 推理模型有什麼看法?因為我想法律可能是那些使用案例中推理需求最重的領域之一。你是否覺得這是一個顯著的區別?這對你們思考實際上應該使用哪些模型有什麼影響嗎?

Atish Nayak 我認為這對我們的產品和客戶來說是一個巨大的突破。正如我之前提到的,我們的客戶對延遲的要求並不那麼高。這些推理模型的唯一缺點是它們需要時間來思考,並展示它們的思維過程和邏輯鏈。所以我們的客戶已經習慣了這一點。因此,將這些推理模型加入我們的產品實際上是非常自然的,這也正是我們產品設計的方式所促成的。而在 AI 方面,這些模型對於長篇草擬的能力非常強大。像是基於從各種不同事實中提取資料來起草整個駁回動議的論點,在這些推理模型出現之前是無法做到的。

Kimberly Tan

或許這有點過於深入細節,但我在想像你提到的基於席位的計費方式是一個非常乾淨的指標,或者像基於使用的計費方式也是一個乾淨的指標。所以像支援票這樣的東西,它就是一個票數作為衡量單位。那麼在這些評估集的單位工作如何定義呢?因為我想很多人可能會覺得,由於這是相對較新的東西,很難完全理解它到底意味著什麼。

Atish Nayak 是的,這確實非常困難,並且根據任務的不同,這個定義會有很大的差異。我認為這不僅僅是根據任務,還取決於我們的客戶。比如說,創建一個案件的時間線,對不同律師事務所來說可能會有很大的不同。所以我們的思路是,先嘗試標準化這些任務的名稱和分類,然後為每個任務設計評分標準。例如,律師事務所 A 和律師事務所 B 可能在時間線中將日期欄位放在不同的位置,但至少它的日期是正確的。因此,我們其實已經為每個我們評估過的主要任務開發了一個完整的評分標準,而這些評分標準是針對每個特定任務而設的。儘管我們嘗試標準化它,但仍然存在很多變異。

Kimberly Tan

明白了。那麼 Harvey 是否已經建立了自己的基礎模型,或者你們有這樣的計劃嗎?

Atish Nayak 簡單的回答是沒有,我們並沒有建立自己的基礎模型。相反,我們與 OpenAI 緊密合作,進行微調、後訓練、提示工程,並進行 RAG(檢索增強生成)來建立這些代理性複合 AI 系統。

Kimberly Tan

你們是否最終希望建立自己的基礎模型?我很好奇,無論答案如何,背後的理據是什麼?

Atish Nayak 簡單的回答是,不,我們不希望建立自己的基礎模型。我認為計算資源的要求已經是公開的,但這是非常昂貴的,我們更願意將這部分留給其他專門做這方面的公司。

Kimberly Tan 你們籌集了很多資金。

Atish Nayak 是的,他們確實籌集了大量的資金,數十億。我們寧願將這部分交給專家,專注於提供我們自己的客戶價值,以及圍繞這些產品進行的工作。

Kimberly Tan

好的,那麼你們不打算建立自己的基礎模型。我很好奇,隨著基礎模型變得越來越強大,很多人都說 AGI(通用人工智慧)總是三到五年之後的事。你們是否將基礎模型視為最終的競爭者?隨著它們在推理能力上不斷進步,是否會有更多領域特定的能力出現?

AI 熱潮與企業採用的現實

Atish Nayak 現在我們必須假設這些模型會變得越來越強大,那麼這對我們意味著什麼?我們必須積累不同類型的優勢,而不僅僅是模型本身。因此,一些優勢包括:產品、數據、網絡和品牌,還有 UX 以及企業平台。我覺得大多數人低估了實際在企業中部署產品所需的工作。我認為即便是 AGI,也可能低估了通過銀行安全檢查所需的工作。因此,我們已經建立了很多這些東西,包括安全檢查、權限管理、審計日志、使用儀表板,以及所有這些企業和管理功能,而像 SAP、ServiceNow 和 Workday 這樣的公司在這些方面已經投資了數十年,這也是為什麼企業喜歡他們並且願意使用他們的原因。所以,我認為投資於企業平台是非常重要的。UX 也是極其重要的。正如我提到的,AI 將要與整個組織協作的 UX 絕對不會是基於聊天的產品。所以我們需要真正創新 UX,並在特定工作流程中開發出可以與 AI 協作的 UX。這是另外一個重要點。然後數據集,我認為也非常重要。你知道,AGI 並不會擁有存儲在律師事務所本地伺服器上的數據,對吧?而這種情況在很多律師事務所中都有發生。

真正讓律師事務所獨特的是他們擁有的許多歷史性交易、案件和數據。所以我們現在開始讓 Harvey 能夠利用這些數據,並根據這些數據定製輸出工作流程。因此,總的來說,這些像產品、UX 這樣的優勢在積累過程中是非常關鍵的。

Kimberly Tan

所有 AI 熱潮的東西,每週都在更新的那種,這些實際上有多大程度地滲透到企業中?你覺得我們聽到這些消息和它實際被部署到企業中之間的延遲是多長時間?

Atish Nayak 這是一個很好的問題。我認為,類似於硅谷如何通過 X 獲取資訊的方式,我們的許多律師事務所客戶通常是通過 LinkedIn 獲取信息的。因此,對我來說,了解我們的客戶群體的最佳方式,就是查看他們在 LinkedIn 上的動態,看看他們喜歡什麼,關注誰,因為那裡正是熱潮和對話發生的地方。我覺得總體來說,可能像去年這個時候,我們實際去見客戶時,他們甚至從未聽說過 ChatGPT。當然,大家都聽過 AI,但沒聽過 ChatGPT。

Kimberly Tan

我們也沒有。

Atish Nayak 是的,我們也沒有。

Kimberly Tan

AI 看起來每天都在變得更強大,新的能力,新的公司不斷湧現。你們是如何看待未來幾年的發展的?如果你有任何預測,特別是在企業中,AI 能夠為大多數人帶來價值的地方是哪些?你認為還需要解決哪些難題,讓更多的地方能夠真正看到投資回報等?

Atish Nayak 我覺得在硅谷,我們經常談論 AI 的起飛或 AGI 起飛,認為模型會變得如此強大,然後變得瘋狂,大家都將幸福地生活,再也不需要工作了。

Kimberly Tan

兩年後就退休了。

Atish Nayak 對,然後就再也不工作了。我只是不認為智力是唯一需要的東西。你會遇到在部署這些技術時的人為瓶頸。你會遇到軟件瓶頸,比如信任,比如與模型良好合作的能力。所以我認為,我會鼓勵,並希望在 2025 年,我們會看到更多企業 AI 公司深入了解他們的客戶,深入了解他們的工作流程,以便能夠以非常具體的方式將 AI 帶給他們,並圍繞它建立產品和 UX,建立企業信任。所以,我不相信至少在接下來的兩到三年內,我們會達到 AGI 的巔峰。這依然是非常以客戶為中心的開發者,在將 AI 以獨特的方式應用於企業工作流程。

Kimberly Tan

這就是今天的節目。感謝您的收聽,我們希望您至少學到了一些東西。隨著 LLM(大型語言模型)及其生態系統的進一步成熟,建立生產級企業產品的複雜性將變得越來越重要,我們將繼續關注這一點。

提醒一下,如果你喜歡這集節目或整個播客,請給我們評價、評論,並與你的網絡分享。