Vitalik新文：未來治理新范式“AI引擎+人類方向盤”

訪客 4個月前 (03-04) 閱讀數 162 #區塊鏈

文章標簽前沿文章

原文標題：AI as the engine, humans as the steering wheel

作者：Vitalik，以太坊創始人；編譯：白水，喜來順財經

如果你問人們喜歡民主結構的哪些方面，無論是政府、工作場所還是基于區塊鏈的DAO，你經常會聽到相同的論點：它們避免權力集中，它們為用戶提供強有力的保證，因為沒有一個人可以隨心所欲地完全改變系統的方向，它們可以通過收集許多人的觀點和智慧來做出更高質量的決策。

如果你問人們不喜歡民主結構的哪些方面，他們經常會給出相同的抱怨：普通選民不夠老練，因為每個選民只有很小的機會影響結果，很少有選民在決策中投入高質量的思考，而且你經常會得到低參與度（使系統易于攻擊）或事實上的中心化，因為每個人都默認信任和復制一些有影響力的人的觀點。

這篇文章的目標是探索一種范式，也許可以使用AI讓我們從民主結構中獲益而沒有負面影響。“AI是引擎，人類是方向盤”。人類只向系統提供少量信息，可能只有幾百位，但都是經過深思熟慮且質量極高的。AI將這些數據視為“目標函數”，并不知疲倦地做出大量決策，盡最大努力實現這些目標。特別是，這篇文章將探討一個有趣的問題：我們能否在不將單個AI置于中心的情況下做到這一點，而是依靠任何AI（或人機混合體）都可以自由參與的競爭性開放市場？

為什么不直接讓一個AI來負責呢？

將人類偏好插入基于 AI 的機制的最簡單方法是制作一個 AI 模型，并讓人類以某種方式將他們的偏好輸入其中。有簡單的方法可以做到這一點：您只需將包含人員指令列表的文本文件放入系統提示中即可。然后，您可以使用眾多“代理 AI 框架”之一賦予 AI 訪問互聯網的能力，將您組織的資產和社交媒體資料的密鑰交給它，您就大功告成了。

經過幾次迭代后，這可能足以滿足許多用例的需求，我完全預計在不久的將來，我們將看到許多涉及 AI 閱讀群組給出的指令（甚至實時閱讀群聊）并采取行動的結構。

這種結構不理想的是作為長期機構的治理機制。長期機構應具有的一個寶貴屬性是可信中立性。在我介紹這一概念的帖子中，我列出了可信中立性的四個寶貴屬性：

不要將特定的人或特定的結果寫入機制

開源且可公開驗證的執行

保持簡單

不要經常更改

LLM（或 AI 代理）滿足 0/4。該模型不可避免地在其訓練過程中編碼了大量特定的人和結果偏好。有時這會導致 AI 的偏好方向令人驚訝，例如，看看最近的一項研究表明，主要的 LLM 更看重巴基斯坦的生活，而不是美國的生活（！！）。它可以是開放權重，但這遠非開源；我們真的不知道在模型深處隱藏著什么魔鬼。它與簡單相反：LLM 的 Kolmogorov 復雜度為數百億位，大約相當于所有美國法律（聯邦 + 州 + 地方）的總和。而且由于 AI 發展迅速，你必須每三個月更改一次。

出于這個原因，我贊成在許多用例中探索的另一種方法是讓一個簡單的機制成為游戲規則，讓 AI 成為玩家。正是這種洞察力使得市場如此有效：規則是一種相對愚蠢的產權體系，邊緣案件由法院系統裁決，該系統緩慢地積累和調整先例，而所有的情報都來自于“在邊緣”運作的企業家。

單個“游戲玩家”可以是 LLM、相互交互并調用各種互聯網服務的 LLM 群、各種 AI + 人類組合以及許多其他構造；作為機制設計師，您不需要知道。理想目標是擁有一個可以自動運行的機制 —— 如果該機制的目標是選擇資助什么，那么它應該盡可能地像比特幣或以太坊區塊獎勵一樣。

這種方法的好處是：

它避免將任何單一模型納入機制；相反，你會得到一個由許多不同參與者和架構組成的開放市場，它們都有自己不同的偏見。開放模型、封閉模型、代理群、人類 + AI 混合體、機器人、無限猴子等都是公平的游戲；該機制不會歧視任何人。

該機制是開源的。雖然玩家不是，但游戲是開源的 —— 而且這是一種已經被相當充分理解的模式（例如，政黨和市場都以這種方式運作）

該機制很簡單，因此機制設計者將自己的偏見編碼到設計中的途徑相對較少

該機制不會改變，即使從現在開始直到奇點，底層參與者的架構每三個月需要重新設計一次。

指導機制的目標是忠實地反映參與者的根本目標。它只需要提供少量信息，但應該是高質量的信息。

你可以認為該機制利用了提出答案和驗證答案之間的不對稱性。這類似于數獨很難解決，但很容易驗證解決方案是否正確。你 (i) 創建一個開放的市場，讓玩家充當“解題者”，然后 (ii) 維護一個由人類運行的機制，執行驗證已提出解決方案的簡單得多的任務。

Futarchy

Futarchy 最初由 Robin Hanson 提出，意為“為價值投票，但為信念押注”。投票機制選擇一組目標（可以是任何目標，但前提是它們必須是可衡量的），然后將其組合成一個度量 M。當您需要做出決定時（為簡單起見，我們假設是 YES/NO），您會設置條件市場：您要求人們押注 (i) 是否會選擇 YES 或 NO，(ii) 如果選擇 YES，則 M 的值，否則為零，(iii) 如果選擇 NO，則 M 的值，否則為零。有了這三個變量，您就可以確定市場是否認為 YES 或 NO 對 M 的值更有利。

“公司股票價格”（或者對于加密貨幣來說，代幣價格）是最常被引用的指標，因為它很容易理解和衡量，但該機制可以支持多種指標：月活躍用戶、某些群體的自我報告幸福感中位數、一些可量化的去中心化指標等。

Futarchy 最初是在人工智能時代之前發明的。然而，Futarchy 非常自然地符合上一節描述的“復雜的求解器、簡單的驗證器”范式，并且 Futarchy 中的交易者也可以是人工智能（或人類+人工智能的組合）。“求解器”（預測市場交易者）的作用是確定每個提議的計劃將如何影響未來指標的價值。這很難。如果求解器正確，他們就會賺錢，如果求解器錯誤，他們就會賠錢。驗證者（對指標進行投票的人，如果他們注意到指標被“操縱”或者變得過時，就會調整指標，并確定指標在未來某個時間的實際值）只需要回答一個更簡單的問題“該指標現在的值是多少？”

蒸餾人類判斷力

蒸餾人類判斷是一類機制，其工作原理如下。有大量（想想：100 萬個）問題需要回答。自然的例子包括：

此列表中的每個人對某個項目或任務的貢獻應獲得多少榮譽？

這些評論中哪些違反了社交媒體平臺（或子社區）的規則？

這些給定的以太坊地址中哪些代表真實且獨特的人？

這些物理對象中哪些對其環境的美學有積極或消極的貢獻？

您有一個團隊可以回答這些問題，但代價是要在每個答案上花費大量精力。您只要求團隊回答少數問題（例如，如果總清單有 100 萬項，團隊可能只會回答其中的 100 項）。您甚至可以向團隊提出間接問題：不要問“Alice 應獲得總信用的百分之幾？”，而是問“Alice 或 Bob 是否應該獲得更多信用，以及多多少倍？”。在設計陪審團機制時，您可以重復使用現實世界中久經考驗的機制，如撥款委員會、法院（確定判決價值）、評估等，當然，陪審團參與者自己也可以使用新奇的 AI 研究工具來幫助他們找到答案。

然后，您允許任何人提交對整個問題集的數字回答列表（例如，提供整個列表中每個參與者應獲得多少信用的估計值）。鼓勵參與者使用人工智能來完成此任務，但他們可以使用任何技術：人工智能、人機混合、可以訪問互聯網搜索并能夠自主雇用其他人類或人工智能工作者的人工智能、經過控制論增強的猴子等。

一旦完整列表提供者和陪審員都提交了答案，就會根據陪審團的答案對完整列表進行檢查，并將與陪審團答案最兼容的完整列表的某種組合作為最終答案。

蒸餾的人類判斷機制與 futarchy 不同，但有一些重要的相似之處：

在 futarchy 中，“解算者”會做出預測，而他們的預測所依據的“真實數據”（用于獎勵或懲罰解算者）是輸出指標值的預言機，由陪審團運行。

在蒸餾的人類判斷中，“解算者”會為大量問題提供答案，而他們的預測所依據的“真實數據”是陪審團提供的這些問題中一小部分的高質量答案。

用于信用分配的蒸餾人類判斷的玩具示例，請參閱此處的 Python 代碼。腳本要求您擔任陪審團，并包含一些預先包含在代碼中的 AI 生成（和人類生成）完整列表。該機制識別最適合陪審團答案的完整列表的線性組合。在這種情況下，獲勝組合是 0.199 * Claude 的答案 + 0.801 * Deepseek 的答案；這個組合比任何單個模型都更符合陪審團的答案。這些系數也將是給予提交者的獎勵。

在這個“擊敗索倫”的例子中，“人類作為方向盤”的方面體現在兩個地方。首先，每個問題都應用了高質量的人類判斷，盡管這仍然利用陪審團作為“技術官僚”績效評估者。其次，有一個隱含的投票機制，決定“擊敗索倫”是否是正確的目標（而不是，比如說，試圖與索倫結盟，或將某條關鍵河流以東的所有領土都交給他作為和平讓步）。還有其他蒸餾的人類判斷用例，其中陪審團的任務更直接地帶有價值觀：例如，想象一個分散的社交媒體平臺（或子社區），陪審團的工作是將隨機選擇的論壇帖子標記為遵守或不遵守社區規則。

在蒸餾人類判斷范式中，存在一些開放變量：

如何進行抽樣？完整名單提交者的作用是提供大量答案；陪審員的作用是提供高質量的答案。我們需要以這樣的方式選擇陪審員，并為陪審員選擇問題，即模型匹配陪審員答案的能力最大程度地表明其總體表現。一些考慮因素包括：

專業知識與偏見的權衡：熟練的陪審員通常專門從事其專業領域，因此讓他們選擇要評級的內容，您將獲得更高質量的輸入。另一方面，過多的選擇可能會導致偏見（陪審員偏愛與他們有聯系的人的內容）或抽樣的弱點（某些內容系統地未評級）

反古德哈特：將有內容試圖“玩弄”人工智能機制，例如，貢獻者生成大量看起來令人印象深刻但無用的代碼。這意味著陪審團可以檢測到這一點，但靜態人工智能模型除非他們努力嘗試，否則不會檢測到。捕捉這種行為的一種可能方法是添加一種挑戰機制，通過該機制，個人可以標記此類嘗試，保證陪審團對其進行判斷（從而激勵人工智能開發人員確保正確捕捉它們）。如果陪審團同意，舉報者將獲得獎勵，如果陪審團不同意，則要支付罰款。

您使用什么評分函數？當前深度資助試點中使用的一個想法是詢問陪審員“A 還是 B 應該獲得更多的信用，以及多多少？”。評分函數為 score(x) = sum((log(x[B]) - log(x[A]) - log(juror_ratio)) ** 2 for (A, B, juror_ratio) in jury_answers)：也就是說，對于每個陪審團答案，它會詢問完整列表中的比率與陪審員提供的比率有多遠，并添加與距離平方成比例的懲罰（在對數空間中）。這是為了表明評分函數的設計空間很豐富，評分函數的選擇與您向陪審員提出哪些問題的選擇有關。

您如何獎勵完整列表提交者？理想情況下，您希望經常給予多個參與者非零獎勵，以避免壟斷機制，但您也希望滿足以下屬性：參與者不能通過多次提交相同（或略微修改）的答案集來增加獎勵。一種有希望的方法是直接計算最適合陪審團答案的完整列表的線性組合（系數非負且總和為 1），并使用這些相同的系數來分割獎勵。也可能有其他方法。

總的來說，目標是采用已知有效、偏見最小化且經受住了時間考驗的人類判斷機制（例如，想象一下法院系統的對抗結構如何包括爭議的兩方，他們擁有大量信息但有偏見，而法官擁有少量信息但可能沒有偏見），并使用開放的人工智能市場作為這些機制的合理高保真度和非常低成本的預測指標（這類似于大預言模型“蒸餾”的工作方式）。

深度融資（deep funding）

深度融資是將人類蒸餾的判斷應用于填寫“X 的信用有多少百分比屬于 Y？”圖上邊的權重問題。

最簡單的方法是直接用一個例子來說明：

兩級深度融資示例的輸出：以太坊的思想起源。請在此處查看 Python 代碼。

這里的目標是分配對以太坊的哲學貢獻的榮譽。讓我們看一個例子：

這里顯示的模擬深度融資輪次將 20.5% 的功勞歸于密碼朋克運動，將 9.2% 的功勞歸于技術進步主義。

在每個節點中，您都會提出一個問題：它在多大程度上是原創貢獻（因此它值得為自己贏得功勞），在多大程度上是其他上游影響的重新組合？對于密碼朋克運動，它有 40% 是新的，60% 是依賴項。

然后，您可以查看這些節點上游的影響：自由主義小政府主義和無政府主義為密碼朋克運動贏得了 17.3% 的功勞，但瑞士直接民主只獲得了 5%。

但請注意，自由主義小政府主義和無政府主義也啟發了比特幣的貨幣哲學，因此它通過兩種途徑影響了以太坊的哲學。

要計算自由主義小政府主義和無政府主義對以太坊的總貢獻份額，你需要將每條路徑上的邊相乘，然后將路徑相加：0.205 * 0.6 * 0.173 + 0.195 * 0.648 * 0.201 ~= 0.0466。因此，如果你必須捐贈 100 美元來獎勵所有為以太坊的哲學做出貢獻的人，根據這一模擬的深度融資輪，自由主義小政府主義者和無政府主義者將獲得 4.66 美元。

這種方法旨在適用于那些在以前的工作基礎上進行工作且結構高度清晰的領域。學術界（想想：引用圖）和開源軟件（想想：庫依賴關系和分叉）就是兩個自然的例子。

一個運作良好的深度資助系統的目標是創建和維護一個全局圖，任何有興趣支持某個特定項目的資助者都能夠將資金發送到代表該節點的地址，資金將根據圖邊緣的權重自動傳播到其依賴項（并遞歸到它們的依賴項等）。

你可以想象一個去中心化協議使用內置深度融資裝置來發行其代幣：協議內的去中心化治理將選擇一個陪審團，陪審團將運行深度融資機制，因為協議會自動發行代幣并將其存入與其自身對應的節點。通過這樣做，協議以編程方式獎勵其所有直接和間接貢獻者，讓人想起比特幣或以太坊區塊獎勵如何獎勵一種特定類型的貢獻者（礦工）。通過影響邊緣的權重，陪審團可以不斷定義它重視的貢獻類型。這種機制可以作為挖礦、銷售或一次性空投的去中心化和長期可持續的替代方案。

增加隱私

通常，要對上述示例中的問題做出正確的判斷，需要能夠訪問私人信息：組織的內部聊天記錄、社區成員秘密提交的信息等。“僅使用單個 AI”的一個好處，尤其是在規模較小的環境中，是讓一個 AI 訪問信息比向所有人公開信息更容易被接受。

為了在這些情況下使蒸餾的人類判斷或深度資助發揮作用，我們可以嘗試使用加密技術安全地讓 AI 訪問私人信息。這個想法是使用多方計算 (MPC)、完全同態加密 (FHE)、可信執行環境 (TEE) 或類似機制來提供私人信息，但僅限于其唯一輸出是直接放入機制中的“完整列表提交”的機制。

如果你這樣做，那么你就必須將機制集限制為 AI 模型（而不是人類或 AI + 人類組合，因為你不能讓人類看到數據），并且特定于在某些特定基底（例如 MPC、FHE、可信硬件）中運行的模型。一個主要的研究方向是找出近期足夠有效、有意義的實用版本。

發動機+方向盤設計的優點

這樣的設計有許多令人期待的好處。迄今為止，最重要的好處是，它們允許構建 DAO，讓人類選民控制方向，但他們不會被過多的決策所困擾。它們達到了折衷，每個人不必做出 N 個決定，但他們擁有的權力不僅僅是做出一個決定（委托通常如何運作），而且更能引發難以直接表達的豐富偏好。

此外，這樣的機制似乎具有激勵平滑特性。我在這里所說的“激勵平滑”是兩個因素的組合：

擴散：投票機制采取的任何單一行動都不會對任何單一參與者的利益產生過大影響。

混亂：投票決策與它們如何影響參與者利益之間的聯系更加復雜且難以計算。

這里的混淆和擴散這兩個術語取自密碼學，它們是密碼和哈希函數安全的關鍵屬性。

當今現實世界中激勵平滑的一個很好的例子是法治：政府高層不會定期采取“給愛麗絲的公司 2 億美元”、“罰款鮑勃的公司 1 億美元”等形式的行動，而是通過旨在均勻應用于大量參與者的規則，然后由另一類參與者進行解釋。當這種方法奏效時，好處是它大大減少了賄賂和其他形式腐敗的好處。當它被違反時（在實踐中經常發生），這些問題很快就會被大大放大。

AI顯然將成為未來的重要組成部分，這將不可避免地成為未來治理的重要組成部分。但是，如果你讓AI參與治理，這有明顯的風險：AI有偏見，它可能在訓練過程中被故意破壞，而且AI技術發展如此之快，“讓AI掌權”可能實際上意味著“讓負責升級AI的人掌權”。蒸餾的人類判斷提供了一條前進的替代道路，讓我們能夠以開放的自由市場方式利用AI的力量，同時保持人類控制的民主。

特別感謝 Devansh Mehta、Davide Crapis 和 Julian Zawistowski 的反饋和審查，以及 Tina Zhen、Shaw Walters 和其他人的討論。

上一篇：金色早報丨CZ發布代幣發行瘋狂想法白宮于3月7日舉行加密貨幣峰會下一篇：香港會展管理公司：Consensus Hong Kong 2025及周邊活動帶來2.75億港元經濟效益