引言

各位晚安。我是來自 UC San Diego 的 Dean Tolson,FCRC 的主席。首先,非常榮幸能歡迎各位參加現在已是第五屆的 Federated Computing Research Conference。我希望各位都有打算參加我們的一些會議,而且我相信各位都非常期待 Ed Lazowski 為大家準備的初步演講時程。但今晚,我更高興能歡迎各位參加 ACM Turing Lecture。這項年度演講由 ACM Turing Award 的得主發表,當然是以英國數學家 Alan M. Turing 的名字命名。這項榮譽通常被稱為計算界的諾貝爾獎。它是電腦科學家能獲得的最具聲望的獎項,並附帶 250,000 美元的獎金,這筆費用由 Intel 和 Google 慷慨提供財務支持。該獎項的得主可以選擇演講的會議地點。我們非常高興 Leslie Valiant 選擇 FCRC 作為他的場地。我認為特別恰當的是,這個會議匯聚了來自電腦科學如此多不同領域的研究人員,他們能齊聚一堂聆聽一位三十年來一直在展示計算複雜度如何成為一個統一的主題,不僅對電腦科學如此,甚至超越了它,成為理解物理、生物和社會過程的關鍵的人物。特別是,Leslie Valiant 的整個職業生涯一直受到理解人類思維和大腦過程計算方面的渴望所驅動。在追求這種理解的過程中,他引入了許多對生物和標準機器計算都至關重要的概念。例如,看到大腦中的大規模並行性促使他引入了最早的一些並行計算模型,這些模型比大規模並行體系的引入早了許多年,比目前並行性無處不在而非奇異變體的現狀早了幾十年。為了理解人類如何通過接觸範例來學習新概念,他在 1984 年發表的 CACM 論文《Theory of the Learnable》中引入了 PAC,也就是 Probably Approximately Correct 模型。PAC 模型迅速成為機械學習的標準模型,計算學習理論領域很大程度上就是圍繞這篇里程碑式的論文匯聚而成的。機械學習現在是一個必不可少的演算法工具,並且擁有令人難以置信的應用數量。他的工作也為計算複雜度引入了許多關鍵的新思想。他展示了永久行列式問題(permanent problem)的核心地位,無論是在布林設定中,它顯示了計數或枚舉問題的完全性,還是在代數設定中,他顯示了永久行列式與行列式(determinant)的問題關係類似於 P 問題與 NP 問題的關係。我確實想讀一下實際的圖靈獎引文,它寫得非常好。引文中說:「Leslie Valiant 為電腦科學引入了新概念,並提出了極具原創性、深度和美感的成果。Leslie Valiant 的成就列表令人驚嘆,其對計算的影響是不可估量的。」他今晚演講的主題是機制式解釋自然的範圍與限制。請歡迎 2011 年 ACM Turing Award 得主。他是 Harvard University's School of Engineering and Applied Science 的 T. Jefferson Coolidge 電腦科學與應用數學教授。讓我們歡迎 Leslie Valiant。謝謝。

演講開始:對圖靈的致敬

好的,謝謝各位光臨。我必須感謝 Dean 慷慨的介紹,感謝 ACM 籌辦這次盛會,也必須感謝所有促成我今天來到這裡的個人。獲得這個獎項的一個巨大的榮幸和樂趣是,有機會向這個廣泛的聽眾發表演講,這樣的機會太難得了。我確實認為電腦科學是一個領域,只是因其貢獻者的知識多樣性而變得豐富。與此相關的第二個巨大榮譽和樂趣是與 Turing 的連結。無論設立科學獎項是否具有價值,如果我們非得有它們,那麼獲得一個以 Turing 命名的獎項是最大的幸運。在紀念 Turing 時,我們紀念的是一位在科學史上影響力幾乎無與倫比的人物,而在這些少數人物中,他在非凡成功的戰爭服務、短暫的生命以及生前所受到的有限認可方面是獨一無二的。他的名字突顯了科學的永恆與單一生命所面臨的不確定性之間的對比。他的三篇論文,在半個多世紀後仍然被廣泛直接引用。第一篇發表在數學期刊上,第二篇發表在哲學與心理學期刊上,第三篇發表在生物學期刊上。但我不認為他是一個跨學科的人。更像是他發現了一個基礎性的學科。他完全理解他所發現的東西,而且至少有一些人,他的一些同時代的人也理解這一點。我的演講題目取自 Max Newman 為 Turing 撰寫的訃聞,訃聞對他的工作作了如下描述:「Turing 已發表著作的多樣標題掩蓋了其目的的統一性。他最初開始並回歸的核心問題,是機制式解釋自然的範圍與限制。」雖然這個標題意在向 Turing 致敬,但也相當貼切地表達了我自己的觀點。我喜歡將其作為電腦科學的定義。我們都想了解由物理上可實現的組件構建的機制能做些什麼,無論它們是由矽還是 DNA 製成的。物理學和化學在最低層次提供機制式解釋,但電腦科學需要提供和解釋更上層次的組織原則。而這特別以研究範圍與限制為特徵。作為電腦科學家,我們都在研究自然允許的機制。如果我們要找到一個傘來容納所有這些,很難找到一個比這更好的詞組了。

計算能力與複雜度類別

Church-Turing hypothesis 最根本的說法是,我們直覺上認為可計算的一切,確實都可以由 Turing machine 計算。我記得當我還是學生時第一次看到這句話,被它的奇特性所震撼。它的內容與我在數學或物理學中見過的一切都不同。我對它究竟意味著什麼感到困惑。許多年後,我轉而認為電腦科學的這個方面是最深刻、最重要的之一。我們需要反映真實現象的模型。但我們能獲得的唯一證據是,當我們考慮同一現象的不同模型時,我們是否能得到證明具有同等能力的模型?模型需要具有穩健性(robustness)和變異性。Turing 所考慮的原型現象是可計算性。但我們研究的每一個其他現象同樣需要這種特性。因此,自 Turing 關於可計算性的論文發表以來,電腦科學的核心關注點一直是理解在與 Turing 等價的電腦上可以編程計算什麼。在理論界,這項探索轉化為試圖刻畫那些不僅原則上而且實際上都可以計算的計算類別,特別是通過多項式時間計算的概念來捕捉。在理解下面這種圖表上投入了巨大的努力。人們可以定義各種多項式時間計算機:確定性的、隨機化的、量子的。每一種都可以形式化為某種 Turing machine。對於每一種,人們可以畫一個橢圓來表示可以使用它解決的問題或任務的類別。一個發現是,對於每一種,穩健性都成立。例如,對於隨機化計算,似乎只有一種很好的候選方法可以在多項式時間內完成。人們還可以問,是否也可以以某種現實的方式在這些計算機上模擬更廣泛的計算類型。因此,NP 捕捉搜尋問題,Sharp P 捕捉計數問題。好消息是,這些類別中的每一個本身都非常穩健,因此這個圖表中沒有太多類別。壞消息是,類別仍然比我們希望的多。理想情況下,我們只希望有一個。目前,我們不知道這些類別中是否有任何一個最能刻畫在這個物理宇宙中實際上可以計算的內容。這些關於計算基本能力的中心問題仍是未解決的,等待未來的發現。我曾聽說有人建議,在這些基本問題解決之前,電腦科學系應該關閉。但也許它們不需要關閉,因為還有相當多其他重要的問題。

演化:圖靈機出現前的計算

那麼,在哪裡還有探索與我之前展示的關於電腦能做什麼一樣基礎的計算問題的空間呢?在這次演講中,我將在過去、在「前傳」中尋找這個空間。在 1936 年之前,計算已經蓬勃發展,這些計算並沒有使用與 Turing 等價的機器,甚至不需要編程。實現這些計算的機制是學習和演化。所以在 1936 年之前,計算在自然系統中蓬勃發展。其中很少具有與 Turing 等價的計算能力。它的能力弱得多。但它確實產生了令人驚嘆的事物。最令人驚嘆的事物是生成越來越複雜的生命。因此,我演講的主題是演化。但首先,我必須毫不含糊地澄清,我相信生命是演化而來的證據是壓倒性的,包括 DNA 證據和化石記錄證據。一個獨立的問題是主要的驅動力是什麼?知情的主流觀點認為是 Darwin 的變異和自然選擇過程。但這並未完全結束這個問題。假設我們有充分證據表明地球是球形的,但我們卻不知道這個球體的大小有多大(以百萬為單位)。這並不會完全令人滿意。演化理論有點像這樣,缺乏量化的解釋。因此,沒有人能夠解釋,沒有任何量化理論能夠解釋 Darwinian 演化如何在宇宙估計的年齡內達到目前的狀態,考慮到宇宙的所有其他參數。計算很早就進入了這個問題。許多非常聰明的人在半個世紀以來,試圖使用電腦模擬演化,使用遺傳演算法和其他受演化理論啟發的演算法。這些演算法有其工程用途,但對我來說,結果在生物學方面令人失望。這些模擬未能演化出類似比 130 億更複雜的機制,而且令人非常不安。如果你不感到不安,你聽錯演講了。很好。為了克服這個問題,我們似乎需要一些解釋,說明演化可以在沒有指數級搜尋的情況下進行。我們的生物學包含約 20,000 種蛋白質。我們的電路根據其他蛋白質的表達水平來確定每種蛋白質的表達水平。一種蛋白質的表達水平對其他蛋白質的依賴有時稱為輸入函數。這些輸入函數來自哪一類函數?隨著環境的變化,這些函數必須適應新的情況。生命的可能性取決於以下問題。如果函數類別過於受限,例如總是固定依賴於一個固定的參數,那麼它會太弱而無法支持生物學。另一方面,如果它太廣泛,例如所有布林函數,那麼沒有任何演化演算法能夠駕馭它。未來,生物學教科書必須詳細說明函數類別是什麼以及駕馭它的演化演算法是什麼。為了讓 Darwinian hypothesis 可信,必須解釋一類足夠豐富的輸入函數如何擁有一個演化演算法,並且該演算法可以在現有資源內駕馭它。這個責任落在了生物學家身上,要求他們描述這樣的演算法並解釋其為何在現有資源內有效。我到目前為止所說的,已經是從計算視角出發的,生物學家並沒有以這些術語來提問。對於生物學家來說,更自然的問題可能是蛋白質如何影響生理學和行為,以及後者在特定生態環境中如何表現等等。但我們的表述繞開了這些細節,這些細節不必知道。我們在這裡給出了一個演化的簡化圖景,考慮到蛋白質是固定的。但重點是,即使在這個簡化圖景中,我們仍然缺乏一個令人信服的解釋,說明演化是如何可能發生的。

計算視角與核心主張

因此,我們可以闡明計算視角帶來了什麼。首先,我們討論複雜電路,但電路之所以複雜的唯一原因,是如果其行為就其輸入而言是複雜的。換句話說,它計算一個複雜的函數。行為以複雜的方式依賴於輸入。如果行為簡單,完全沒有理由擁有一個複雜的電路。如果我們要解釋這些複雜電路是如何產生的,我們必須引入電路複雜度的概念。其次,這些電路將在一個複雜的環境中運行,遠比它們自身複雜。有些電路對其擁有者比其他電路更有益。我們想解釋電路如何適應以變得更好。這裡的措辭暗示了學習和演化兩個概念。我演講的其餘部分將證明這兩者之間的聯繫不僅僅是隱喻,而是在技術意義上,其中一個是另一個的特例。因此,我們的主要主張如下:演化導致的生物電路功能改變或增加是一種計算學習的形式。當電路在演化過程中改變其計算內容時,它正在經歷學習或計算學習或機械學習,我將這些術語視為等價的。這裡的希望是,我們將演化的問題嵌入到一個已經有一些已知知識的理論中。

演講範圍的澄清

現在,為了讓演講的其餘部分易於理解,我必須澄清我將不討論什麼。「演化」這個詞是一個包羅萬象的術語,涵蓋了生命史。它處理宏大的主題和事件,所有這些都非常有趣,包括競爭、生存、恐龍等等。但我的目標不是模擬或討論所有這些事情。我對這些其他事物不做任何主張。我只對演化如何在現有資源下可能發生的單一問題感興趣,而不是描述在所有豐富性中發生的一切。例如,競爭是這段歷史的重要組成部分,但僅基於競爭的理論並未能給出越來越複雜的電路如何演化的解釋。因此,我不會提出一個涵蓋生存或競爭的理論,而只是一個討論功能改變速率的理論。當然,這是沒有它就無法產生其餘部分的根本問題。

理解學習

首先,我必須討論學習。有兩個重要的方面需要區分。第一個是如何學習,而人們可能會首先問的問題是,學習到底是什麼?這裡的花是為了紀念 Ronald Fisher,他是最早討論統計推斷並使用花卉數據集的統計學家之一。範例由花卉的物理尺寸指定,目標是根據其物種對新範例進行分類。我將描述 Perceptron 演算法,你們大多數人可能都見過。它現在雖然已經非常古老,但仍然是一個非常重要的演算法。因此,我們假設每個花卉實例由三個數字表示,例如花瓣或其他部分的某些長度測量。我們假設兩種不同的物種可以用這些測量值的線性不等式來區分。因此,花卉實例 (1, 1, 2) 被這個假設歸類為負面,因為如果在線性形式中代入 x, y, 和 z 的值,結果小於零。但輸入數據聲稱範例 1 是正面的,所以假設是不正確的。那麼演算法做了什麼?如果一個範例的標籤與當前假設一致,假設不會改變。如果不同意,那麼通過簡單地將範例的坐標加或減到線性形式的係數來改變假設,這取決於發生了兩種可能的不同意中的哪一種。在範例 1 中,第一次更新將係數 (1, 1, 2) 加到 (3, 4, -7) 上以獲得新的假設。第二個範例是方向相反的錯誤,將被減去。現在這個演算法具有良好的收斂性,並且在機械學習中非常有用,但這不是我今天想討論的。我想問的問題是,這個演算法能成為 Darwinian 演化的基礎嗎?大致上,我們將範例對應於生物體必須採取行動的個體經驗,而假設對應於基因組,它告訴生物體要做什麼。這種生物的生命將在於區分一種花與另一種花。我們目前的觀察是,這個演算法已經有一些方面對於 Darwinian 演化來說太強大了。它允許單個經驗改變基因組,這就像 Lamarckian 演化。Darwin 說這是不允許的。伸長你的脖子不會改變你的基因組,以至於你的後代會有更長的脖子。在 Darwinian 演化中,那些擁有更長脖子的人可能更繁榮,如果他們這樣做,他們就會有更多的後代。Darwinian 回饋不如 Lamarckian 回饋直接。然而,在 Darwinian 理論中,它隱含著至少有時它可以產生相同的效果。但 Darwinian 演化真的同樣強大嗎?它會不會是呈指數級慢?這與我們需要問的問題的核心非常接近。

PAC 模型:學習的精確定義

所以現在我們來到你對學習的真正意思的問題,這將是我們討論演化的起點。Darwin 的理論是否構成一種機制,或者只是一個非正式的直覺建議,從一開始就存在爭議。如果我們要對其提出量化問題,我們需要處理其明確精確的規範。我們的建議是,我們可以在學習理論中尋找這樣的規範,因為演化和學習都關於如何無需程序員即可獲得機制。我將描述 PAC 模型,Probably Approximately Correct 模型。在這裡,我們有一個可能範例的空間,通常非常巨大,以至於我們永遠無法看到的可能性不足以達到萬分之一。有些被標記為正面範例,例如某個物種 A 的花朵,其餘的則為負面。你希望從這些範例中學習一個能夠可靠地分類未見花朵的假設。期望完美太多了。你必須容忍一定程度的錯誤。所以 PAC 學習基本上說,你希望錯誤很小。第二,你希望學習演算法適用於所有分佈,這樣就不需要對世界做任何假設。這裡的魔力在於,雖然挑戰是在任意奇怪的分佈上進行分類,但你有這樣做的機會,因為你是從同一個奇怪的分佈中學習的。第三,計算和錯誤的倒數都由相關參數多項式有界。雖然錯誤是不可避免的,但可以控制其水平,並且可以通過投入越來越多的努力來有效減少錯誤。但所需的努力將是可行的,隨著容許的錯誤水平降低,努力只會呈多項式增加。所以這是一種粗略的技術定義。但問題是,這裡發生的事情有沒有一種更哲學性的解釋?

PAC 的哲學解釋與實體-世界關係

所以我想提出的第一點是,PAC 學習的主要重點僅在於它結合了計算和統計。統計是必不可少的,因為錯誤是不可避免的。計算是必不可少的,因為在學習中你必須積極主動地做點什麼。第二點是這種概念被設計來扮演的角色。這個角色是有限實體與複雜世界之間的關係。現在這是一個對機械學習合理的描述。所以人們使用非常簡單的演算法進行機械學習,即使是 Perceptron 演算法,而不知何故,這個簡單的演算法能夠咬入一個非常複雜的世界,也許是檢測網絡垃圾郵件或信用卡詐欺。一個簡單的演算法在一個非常複雜的世界中應付。現在這個簡單的實體可以看作是一個小電路,也許是蠕蟲的神經電路,或者一個演化的實體。即使它是一台超級電腦,它也會受到明顯的學習或演化終極限制的限制。所以即使它是一個 exascale monster,這台機器也最好謙虛一點,將自己看作更像一條蠕蟲,因為學習或演化對每個人來說都很艱難。所以這個簡單的電路必須應付什麼?為什麼我們會如此...

演化的目標:改善行為

嗯,我們聲稱演化確實有一個目標,即使它不是像對花卉進行分類,甚至演化出人類。那麼演化的目標是什麼?所以我們聲稱演化的目標就是簡單地改善行為。我們想像一個理想函數,也許就在天上,它能告訴針對每一個可能的(指數級多的)不同情況,什麼是最佳行動方案。在這一刻,你的第三種蛋白質的最佳表達水平是什麼?聽完這次演講後,喝多少杯咖啡最適合你?對於這兩個問題,有些值會比其他值對你更有益。20 杯咖啡可能太多了。目前,我們只需要考慮這個函數的存在。我們不假設任何人需要知道它。我們在這裡是否假設太多了?我說不。Socrates 說未經檢視的生活不值得過。Darwin 更進一步,至少暗示未經檢視的生活並不存在。在每一種情況下,對於每一個物種或其他演化實體,每個行動都有一些可量化的益處或傷害。理想函數表達的僅僅是這一點,即在每一種情況下,你的行動都將被檢視、評估,並且可能會產生後果。

達爾文式回饋與變異的產生

接下來,我們將使用我們已經建議的 Darwinian 回饋。所以我們在不依賴經驗的情況下,製作當前基因組的變異體,並讓那些在真實世界經驗中表現良好者勝出。這是一種限制,相對於普通的學習演算法,但基本上這是 Darwin 提出的機制。從某種意義上說,演化演算法的主要部分是說明如何產生變異體的規範。所以自然界使用了點突變、複製 DNA 片段,以及誰知道還有什麼。在我們的模型中,我們將盡可能慷慨,不僅包含這些觀察到的演化方式,還包含任何其他方式,無論多麼奇怪,只要它是可行的。因此,在模型中,我們允許任意隨機多項式因式分解機在基因組上計算並產生下一代的變異體。這已經是盡可能慷慨了,同時又不超出可行的資源。但即使如此慷慨,演化也並不容易。在這個模型中,基因組可以被視為整個族群的基因組總和。這導致模型包含了無性繁殖和有性繁殖,以及其他機制,如橫向基因轉移,這些被認為在地球早期生命中很重要。

技術細節:PAC、SQ 與可演化性模型

所以我只允許自己展示一張簡短的技術幻燈片。我已經討論了 PAC 模型,其中學習者可以任意利用每個範例及其標籤來更新假設。這大致對應於 Lamarckian 演化,因為經驗,即使是單個範例,也可以直接影響基因組。可演化性模型旨在施加 Darwinian 回饋約束。為了簡單起見,我們只允許布林函數作為目標函數和中間基因組。這些函數的值將取 +1 或 -1。所以目標函數將是 F,當前基因組將是 G。Darwinian 約束是我們只能以受限的方式訪問 G。我們只能衡量它與理想函數的接近程度。這個衡量標準基本上取決於基因組與理想函數一致的時間比例,稱為相關性。因此,對於任何經驗 X,如果 F 和 G 一致,將會有 +1 的貢獻,並按 X 在自然世界中出現的概率加權。如果 F 和 G 不一致,將會有 -1 的貢獻。因此,如果 G 已經是理想的,性能將為 +1。如果每次都做錯事,性能將為 -1。在這個模型中,我們從當前基因組生成各種候選基因組,計算這些相關性,並選擇一個非常好的基因組作為下一代。

那麼基因組如何計算相關性呢?只需通過生活和獲得經驗。其整體行為的適應度就是這個相關性。如果相關性低,基因組將通過沒有後代而發現這一點。我們說一個函數類別是可演化的(evolvable),如果在該類別中從任何初始函數開始,我們可以在多項式世代內將其轉換為任何理想函數 f。該模型不要求知道相關性的精確值。只需要進行多項式數量的採樣或經驗就足夠了。我還提到,已經存在一個稱為 SQ 學習(SQ learning)的學習模型,由 Michael Kearns 提出,它介於這兩個模型之間。他的模型像演化一樣,只允許對 G 提出整體統計問題,而不是依賴單個範例的問題,但與演化不同的是,問題可以是任意的,而不限於 Darwinian 方式。所以如果更正式地寫下這些定義,結果是可演化性(evolvable)包含在 SQ 中,而 SQ 又包含在 PAC 學習類別中。

模型 經驗訪問方式 查詢類型
PAC 學習 任意利用單個範例及其標籤以更新假設 (類似 Lamarckian) 任意查詢
SQ 學習 只允許對假設提出整體統計問題 任意統計查詢
可演化性(Evolvable) 只允許對假設提出整體統計問題 (基於性能/相關性) 受限於 Darwinian 方式的相關性查詢

已知結果與類別關係

因此,除了這些之外,還有相當多的已知結果。首先,Kearns 已經證明某些 PAC 可學習的函數類別不是 SQ 可學習的。這方面的主要例子是奇偶函數(parity functions)。存在一個隱藏的變數子集。當且僅當這些隱藏變數子集中有奇數個變數的值為 1 時,函數的值才為 1。學習問題是發現這個隱藏的子集。Kearns 證明了這個函數不是 SQ 可學習的,由此可知它不是可演化的。例如,如果有人證明在歷史的某個時期,生物學確實學會了一個大型奇偶函數,那將與這個理論相矛盾。當然,人類可以輕鬆計算一組零和一的奇偶性,這並不矛盾,因為我們可以演化出計數能力,而無需找到一個大型子集。你可能會說奇偶函數在生物學上是不自然的,但這就是重點。我會說它們必須是不自然的,因為沒有辦法演化出它們。另一個相關的結果是由 Vitaly Feldman 提出的。首先,他給出了一個關於可演化性的重要刻畫,利用了一類稱為關聯查詢學習(correlation query learning)的受限統計查詢學習,其次,他證明了某些 SQ 可學習的函數類別不是可演化的,因此可演化性是 SQ 學習形式的一種限制。我們可以將其重寫為一個 Venn 圖,有點像我開頭給出的那個。這裡的一個特徵是,雖然這些類別是計算性的,但它們可以被證明是可區分的。不像我之前給出的複雜度類別的 Venn 圖,這些包含關係不是僅僅猜測。

理論電腦科學家的笑話

好的,所以你可能已經注意到,我還沒有講我的第一個關於理論電腦科學的笑話。原因主要是我不知道很多。事實上,我知道的笑話都歸結為同一個笑話。如果你問一個問題,物理學家可能會說是,數學家可能會說不,而理論電腦科學家會說:「我不知道你的問題的答案,但我確實知道答案與另一個我也不知道答案的問題的答案是相同的。」所以這種相對論式的答案當然非常有用,但至少在這個領域的這一角,我們不需要它們。

穩健性與正向結果:實值函數的視角

好的,就像我開頭說的,理論電腦科學的每一個分支都依賴於穩健性現象,這當然是 Turing 向我們展示的,需要確保你研究的不是任意的形式體系,而是某個真實現象,它有很多表現形式,而這在演化中絕對是需要的。我們確實有一些這樣的穩健性結果,我就不再深入討論了。但另一個問題是,即使你有一個穩健的現象,同樣強大的要求是,你至少有一些正向結果,否則你的穩健現象可能會因為缺乏存在性而受損。在純粹的布林領域,對於演化來說,很難證明這類正向結果。現在可以豐富模型,允許實值假設,而 Loisus, Michael 和 Vitaly Feldman 的結果表明,這在學習布林函數時有幫助。但是當你有實值函數時,你確實會失去一些穩健性,而且你還有一些進一步的選項需要決定。所以一個自然而然會被引導到的領域,並且可以得到一些令人信服的正向結果的領域,是目標函數和假設都是實值的場合。所以我將解釋模型歸結為何。所以你有一些理想函數,比如這個 f,例如它是你的蛋白質的理想表達水平。所以 x's 以某種非常奇怪的分佈出現,由世界定義,我們不想對此做任何假設。你當前的基因組是 g,在這種情況下很不幸,它不是理想的。它計算出了錯誤的結果。但現在我們必須決定如何衡量由於沒有理想函數而遭受的損失。例如,讓損失與理想函數和實際函數之間的差異成比例是一個合理的選擇。人們可以讓損失是其他的冪次方,但在這方面必須小心,不要使用損失函數過於直接地指向你的答案。所以堅持你因為沒有每天喝理想數量的咖啡而遭受的損失是一個非常有趣的函數,這可能是一個關於世界的過強假設。既然我在這裡有一個例子,在我繼續之前,我將更普遍地評論我所描述的這種方法與演化的更傳統處理方式的關係。在那些更傳統的模型中,總是存在一個適應度景觀(fitness landscape),它描述了每一個 G 的適應度,本質上是我們的表現。所以不同的基因組將有不同的適應度,這僅由世界定義。所以在這種方法中,重點是理想函數和真實世界的分佈共同定義了不同基因組的適應度景觀。而其定義就是上面那一行,所以性能的定義就是我的適應度定義,並且那裡有一些表達式。所以如果理想函數來自一個足夠簡單的類別,那麼對於世界施加的任何實例分佈,適應度景觀將是可由多項式時間演算法導航的。因此,基因組計算出的函數,也就是學習演算法並且只對損失函數有一個凸性限制。所以至少有一個結果表明,具有多項式資源約束的 Darwinian 演化可以在非常一般的條件下演化出一類有用的函數。

可演化目標追求與學習類比

所以最後,我想回到更大的圖景。我們如何彌合我們證明可演化的簡單函數類別與數十億年持續演化歷史之間的差距?似乎存在某種顆粒度差距(granularity gap)。為討論這個問題,我想引入可演化目標追求(evolvable target pursuit)的概念。所以在任何環境中的任何演化實體,例如一個物種,在任何時刻可能存在一些演化機會。可能通過改變某種蛋白質的表達水平,或者甚至通過長出第二個頭,我們可以顯著提高我們的適應度。我們的理論說,如果通過改變演化使用的可演化類別中的函數可以實現這樣的改變,那麼我們將迅速、可預測且不可避免地做到這一點。做到這一點之後,另一個機會可能出現,我們可能會跟隨它。新的機會可能來自自然災難,例如隕石,其他生命形式的遷入,或者我們之前的演化步驟。如果有一個理論告訴我們什麼樣的機會序列會出現,那將是很好的。我歡迎這樣的理論,但擔心它可能不存在,而且它的缺席也不會太讓我不安。我對此的看法是,要緩解人們對演化長期無法自理的擔憂,應該與學習進行比較,即使是非正式的比較。學習科學,在我看來,非常相似。我們有一個理論,就是可學習目標追求(learnable target pursuit)。這正是機械學習的運作方式。所以,為了更進一步地推進這個類比,假設你明天來參加這次會議的一個演講。如果你具備適合的背景,你將會學到很多。否則,你不如沒來。你明天是否會遇到這種情況,對於任何特定的演講,這在很大程度上已經確定了。你可以想像,從你現在的大腦狀態和演講內容,這是可以科學預測的。這就是我們可以期望學習和演化科學所處的粒度層次。如果你四年後回來,你將能理解哪些演講,這超出了科學的範圍。你將會遇到什麼樣的機會,以及你未來四年將學習什麼,這超出了學習理論或演化理論的範疇。然而,我並不絕望地擔心你在未來四年內學不到任何東西。如果你繼續生活在一個足夠豐富的環境中,你將會遇到許多可學習的機會和目標,你的大腦將會迅速追求這些。出於同樣的原因,我不擔心演化會停止。在足夠豐富的環境中,新的機會將不斷出現,即使特定的路徑超出了任何學習或演化理論的範疇,這些機會也將被利用。

總結與結論

所以總結一下,我描述了一個適用於任何星球的 Darwinian 演化模型。它試圖量化在多項式增長資源下,功能改變的最大實際速率。現在,一代人不會通過電子郵件將其 DNA 描述發送給下一代。有更多的物質轉移,這些可能產生所謂的表觀遺傳現象(epigenetic phenomena)。要了解這些對 Darwinian 演化的速率是否有重大影響,我認為必須進行類似的嘗試,形式化這些機制能做什麼,並觀察你是否得到一個更強大的機制。我懷疑發現的任何東西仍然在可學習的範圍內,儘管大多數人認為,事實上,發現的任何東西並不會對 Darwinian 觀點增加太多。所以最根本地說,我試圖展示的是,人們可以分離出功能改變的速率,並用計算學習的術語來表述它。

所以結論是,我知道這種對演化的處理方式有點非標準。原因如我已經說過的,它無意於模擬我們通常混淆為「演化」一詞的各種現象,也無意於描述地球上的生命歷史。這段歷史是充滿事件且多方面的,是一場永無止境的競爭、生存、滅絕等戲劇。自古以來,一個技術問題特別令人著迷:像我們這樣複雜的生命形式,如何能通過一個機械過程從無到有地演化出來?這就是我試圖在犧牲所有其他問題的情況下孤立出來的問題。我試圖展示的是,當孤立這個問題時,我們需要來自電腦科學的概念,在這個框架內,我們可以提出關於功能機制改變速率的問題。來自其他科學的證據壓倒性地表明,我們人類確實是通過演化來到這裡的,但並未確切解釋這是如何做到的。如果電腦科學能最終解決這個「如何」的問題,那將是一個重要的智識里程碑,但這也將僅僅是 Alan Turing 探索機制式解釋自然的範圍與限制的遺產的又一個新篇章。謝謝。謝謝。好的,謝謝各位光臨。我們現在不會從聽眾那裡提問,但 Les 將會前面待一會兒。所以讓我們最後一次感謝並祝賀我們的演講者。