AI能否在加密世界生存：18個大模型的加密試驗

來源：Empower Labs

在技術進步的編年史上，革命性技術往往獨立出現，各自引領一個時代的變革。而當兩股革命性技術相遇，它們的碰撞往往會產生指數級的影響。如今，我們正站在這樣一個歷史性時刻：人工智能與加密技術，這兩種同樣具備顛覆性的新技術，正攜手步入舞台中央。

我們暢想AI領域的諸多挑战能夠被加密技術所解決；我們期待AI Agent構建自主經濟網絡，推動加密技術的大規模採用；我們也盼望AI能加速加密領域現有場景的發展。無數目光聚焦於此,海量資金瘋狂湧入，就如任何buzzword一樣，它凝聚了人們對創新的渴望、對未來的憧憬，也包含了難以抑制的野心與貪欲。

然而在這一片喧囂中，我們卻對最基本的問題知之甚少。AI究竟有多懂加密領域？配備了大語言模型的Agent是否具備運用加密工具的實際能力？不同的模型在加密任務上的差異有多大？

這些問題的答案將決定AI和加密技術的相互影響力，也對這個交叉領域的產品方向和技術路线選擇至關重要。爲了探究這些問題，我做了一些大語言模型的評估實驗。通過評估它們在加密領域的知識和能力，衡量AI的加密應用水平，判斷AI與加密技術融合的潛力和挑战。

先說結論

大語言模型在密碼學和區塊鏈基礎知識方面表現卓越，對加密生態非常了解，但在數學計算和復雜業務邏輯分析上表現很差。在私鑰和基本錢包操作方面，模型有着令人滿意的基礎，但面臨如何雲端保管私鑰的嚴峻挑战。很多模型能夠生成簡單場景的有效智能合約代碼，但無法獨立執行合約審計、復雜合約創建等高難度的工作。

商業閉源模型總體有較大領先，开源陣營中僅Llama 3.1-405B表現突出，而參數規模較小的开源模型全體不及格。然而潛力是有的，通過提示詞引導、思維鏈推理和少樣本學習技術，所有模型的表現都得到了大幅提升，領先的模型在一些垂直應用場景已經具備了較強的技術可行性。

實驗細節

選擇了18個具備代表性的語言模型作爲評估對象，包括：

閉源模型：GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta(暫時閉源)
开源模型：Llama 3.1 8B/70b/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14b、Gemma2 9B\27B、Command-R
數學優化模型：Qwen2-math-72B、MathΣtral

這些模型涵蓋了主流商業和流行开源模型，參數量從3.8B到405B有百倍以上的跨度。考慮到加密技術與數學的密切關系，實驗還特別選擇了兩個數學優化模型。

而實驗覆蓋的知識領域包括密碼學、區塊鏈基礎、私鑰與錢包操作、智能合約、DAO與治理、共識和經濟模型、Dapp/DeFi/NFT、鏈上數據分析等。每個領域都由一系列由易到難的問題和任務組成，不僅測試模型的知識儲備，也通過模擬任務測試其在應用場景中的表現。

任務的設計來源多樣化，一部分來自加密領域多位專家的輸入，另一部分由AI輔助生成，並經過人工校對，以確保任務的准確性和挑战性。其中一部分任務使用了形式較爲簡單的選擇題，方便單獨進行標准化的自動化測試和評分。而另一部分試驗採用更加復雜的題目形式，測試過程則由程序自動化+人工+AI結合的方式進行。所有測試任務均採用了零樣本推理方法進行評估，不提供任何示例、思維引導或者指令型提示。

由於實驗本身設計的還比較粗糙，並不具備足夠的學術嚴謹性，用來測試的問題和任務遠遠無法全面覆蓋加密領域，測試框架也並不成熟。因此本文並不列舉具體的實驗數據，而是側重分享一些實驗中的洞察。

知識/概念

在評估過程中，大語言模型在加密算法、區塊鏈基礎知識和DeFi應用等各領域的基礎知識測試中表現出色。例如在考察對數據可用性概念理解的問答題中,所有模型均給出了准確答案。而評估模型對以太坊交易結構的掌握程度的題目，盡管各模型在回答細節上略有差異,但總體上都包含了正確的關鍵信息。考察概念的選擇題則更是沒有難度，幾乎所有模型的正確率都在95%以上。

概念性問答完全難不住大模型。

計算/業務邏輯

然而當涉及需要進行具體計算的題目時情況就倒了過來。一道簡單的RSA算法計算題就讓絕大多數模型陷入困難。這其實不難理解：大語言模型主要通過識別和復制訓練數據中的模式來運作，而非通過深入理解數學概念的本質。這種局限性在處理抽象數學概念如模運算、指數運算時尤爲明顯。鑑於加密領域與數學緊密相關，這意味着直接依賴模型進行加密相關的數學計算是不可靠的。

在其他計算題目中，大語言模型的表現同樣不盡如人意。例如計算AMM無常損失的簡單題目，盡管不涉及復雜數學運算，但18個模型中僅有4個給出了正確答案。而另一道更爲基礎的計算出塊概率題目，竟然所有模型全部答錯了。竟然難倒了所有模型，無一算對。這不僅暴露了大語言模型在精確計算方面的不足，也反映出它們在業務邏輯分析上存在較大問題。值得注意的是，即便是數學優化模型，在計算類題目中也未能展現出明顯優勢，其表現令人失望。

然而，數學計算的問題並非無解。如果我們稍作調整，要求LLMs給出相應的Python代碼而非直接計算結果，正確率就會大幅提高。以前述RSA計算題爲例，大部分模型給出的Python代碼都能順利執行並得出正確結果。在實際生產環境中，更可以通過提供預設的算法代碼來繞過LLMs自行運算的環節，這與人類在面對此類任務時的處理方式相似。而在業務邏輯層面，通過精心設計的提示詞引導，也可以有效改善模型的表現。

私鑰管理和錢包操作

如果問Agent採用加密貨幣的第一個場景是什么，我的答案是支付。加密貨幣幾乎可以被視爲AI原生的貨幣形式。相較於Agent在傳統金融體系中面臨的諸多障礙，利用加密技術爲自身配備數字身份並通過加密錢包管理資金，是一個再自然不過的選擇。因此，私鑰的生成和管理、錢包的各類操作，構成了Agent能否自主使用加密網絡的最基本技能要求。

安全生成私鑰的核心在於高質量的隨機數，這顯然是大語言模型並不具備的能力。不過模型對私鑰安全的認知是充分的，在被要求生成私鑰時，絕大多數模型都選擇利用代碼（如Python的相關庫）來引導用戶自主生成私鑰。即便有模型直接給出了私鑰，也明確聲明這僅用於演示目的，並非可直接使用的安全私鑰。在這方面，所有大模型都展現出了令人滿意的表現。

私鑰管理則面臨着一些挑战，這主要源於技術架構的固有限制，而非模型能力的不足。使用本地部署的模型時，生成的私鑰可被視爲相對安全。然而如果使用的是商業雲端模型，我們必須假設私鑰在生成的瞬間就已經暴露給了模型的運營方。但對於目標爲獨立工作的Agent，具備私鑰權限是必須的，這意味着私鑰不能只在用戶本地。在這種情況下，僅依靠模型本身已不足以確保私鑰的安全性，需要引入可信執行環境或HSM等額外的安全服務。

如果假設Agent已經安全地持有私鑰，在此基礎上進行各類基本操作時，測試中的各種模型都表現出了良好的能力。雖然產出的步驟和代碼常常存在錯誤，但在合適的工程架構下，這些問題在很大程度上是可以解決的。可以說從技術層面來看，讓Agent自主進行基礎的錢包操作已經不存在太多障礙。

智能合約

智能合約的理解、利用、編寫和風險識別能力是AI Agent在鏈上世界執行復雜任務的關鍵，因此也是實驗的重點測試領域。大語言模型在這一領域展現出顯著潛力，但同時也暴露了一些明顯問題。

在測試中幾乎所有模型都能正確回答基礎合約概念，識別簡單的bug。在合約gas優化方面，大多數模型能夠識別關鍵優化點，並分析優化可能帶來的衝突。然而，當涉及深層業務邏輯時，大模型的局限性开始顯現。

以一個token vesting合約爲例：所有模型都正確理解了合約功能，大部分模型找出了幾個中低風險漏洞。但是，對於一個隱藏在業務邏輯中、可能在特殊情況下導致部分資金被鎖死的高風險漏洞，沒有任何模型能夠自主發現。在多個使用真實合約的測試中，模型的表現都大致相同。

這表明大模型對合約的理解仍停留在形式層面，缺乏對深層業務邏輯的理解。不過，在提供額外提示後，部分模型最終能夠獨立找出上述合約中隱藏較深的漏洞。基於這一表現判斷，在良好的工程設計支持下，大模型已基本具備在智能合約領域擔任co-pilot的能力。然而要獨立承擔合約審計等重要工作，仍有很長的路要走。

有一點需要說明，實驗中代碼相關的任務主要針對邏輯簡單、代碼量在2000行以內的合約。對於更大規模的復雜項目，在不進行微調或復雜提示詞工程的情況下，我認爲明顯超出了當前模型的有效處理能力範圍，並未列入測試。此外，本次測試僅涉及Solidity，未包括Rust、Move等其他智能合約語言。

除了上述測試內容，實驗還涵蓋包括DeFi場景、DAO及其治理、鏈上數據分析、共識機制設計以及Tokenomics等多個方面。大語言模型在這些方面均展現出了一定的能力。鑑於許多測試仍在進行中，且測試方法和框架正在不斷優化，本文暫不對這些領域進行深入探討。

模型的差異

在所有參與評測的大語言模型中，GPT-4o和Claude 3.5 Sonnet延續了它們在其他領域的卓越表現，是毫無爭議的領先者。面對基礎問題時，這兩個模型幾乎都能給出准確答案；在復雜場景分析中，它們更是能夠提供深入且論據充分的見解。甚至在大模型不擅長的計算類任務裏也展現出了高勝率，當然這種"高"成功率是相對而言的，仍未達到在生產環境中穩定輸出的水平。

在开源模型陣營中，Llama 3.1-405B得益於其龐大的參數規模和先進的模型算法，遙遙領先於同類。在其他參數規模較小的开源模型中，各模型間並未呈現顯著的性能差距。盡管得分高低略有不同，但整體都離及格线很遠。

因此如果當前要構建加密相關的AI應用，這些中小參數量的模型不是合適的選擇。

在我們的評測中，有兩個模型特別引人注目。首先是微軟推出的Phi-3 3.8B模型，它是本次參與實驗的最小模型，然而它以不到一半的參數量就達到了與8B-12B模型相當的性能水平，在某些特定類別的問題上甚至表現更爲出色。這一結果凸顯了模型架構優化和訓練策略的重要性，而不僅僅是依賴於參數規模的增加。

而Cohere公司的Command-R模型成爲了一匹令人意外的"黑馬"——反向的。Command-R相對其他模型名氣不那么大，但是Cohere是專注2B市場的大模型公司，我認爲和Agent开發等領域還是有相當多的契合點，因此特意列入測試範圍。但擁有35B參數的Command-R卻在大多數測試中墊底，不敵許多10B以下的模型。

這一結果引發了思考：Command-R在發布時主打的是檢索增強生成能力，甚至都沒公布常規的基准測試成績。這是否意味着它是一把"專用鑰匙"，只在特定場景下才能开啓全部潛力？

實驗限制

在這一系列測試中，我們對AI在加密領域的能力有了初步的了解。當然這些測試還遠未達到專業水准。數據集的覆蓋範圍遠遠不夠，答案的量化標准相對粗略，尚缺乏精細且更爲准確的評分機制，這都會影響評估結果的精確度，不排除會導致某些模型表現被低估。

在測試方法上實驗僅採用了零樣本學習（zero-shot learning）的單一方式，並未探索思維鏈條，少樣本學習等能啓發模型更大潛力的方式。而在模型參數上，實驗均採用了標准模型參數，並未考察不同參數設置對模型表現的影響。這些總體單一的測試方法限制了我們對模型潛力的全面評估，也未能充分挖掘模型在特定條件下的性能差異。

盡管測試條件相對簡陋，這些實驗依然產生了不少有價值的見解，爲开發者構建應用提供了參考。

加密領域需要自己的Benchmark

在AI領域，基准（benchmark）扮演着關鍵角色。現代深度學習技術的快速發展就源於李飛飛教授於2012年完成的ImageNET，這正是一個計算機視覺領域的標准化基准和數據集。

通過提供統一的評估標准，基准不僅爲开發者提供清晰的目標和參考點，還推動了整個行業的技術進步。這解釋了爲什么每個新發布的大語言模型都會重點公布其在各種基准測試上的成績。這些結果成爲了模型能力的"通用語言"，使研究者能夠定位突破口，开發者可以選擇最適合特定任務的模型，而用戶則能夠基於客觀數據做出明智選擇。更重要的是，基准測試往往預示着AI應用的未來方向，引導資源投入和研究焦點。

如果我們相信AI與加密技術的交叉領域蕴含巨大潛力，那么建立專門的加密領域基准測試就成爲一項迫切的任務。基准測試的建立可能成爲連接AI與加密兩大領域的關鍵橋梁，催化創新，並爲未來應用提供清晰指引。

不過與其他領域的成熟benchmark相比，構建加密領域的基准測試面臨獨特挑战：加密技術快速演進，行業知識體系尚未固化，多個核心方向缺乏共識。作爲跨學科領域，加密涵蓋密碼學、分布式系統、經濟學等，復雜度遠超單一領域。更具挑战性的是，加密基准不僅需評估知識，還需考察AI運用加密技術的實際操作能力，這要求設計全新的評估架構。而相關數據集的匱乏進一步增加了難度。

這項任務的復雜性和重要性決定了它無法由單一個人或團隊完成。它需要匯集從用戶、开發者、密碼學專家、加密研究者到更多跨學科領域人士的多方智慧，依賴廣泛的社區參與和共識。也因此，加密基准需要更廣泛的討論，因爲這不僅是一項技術工作,更是對我們如何理解這一新興技術的深刻反思。

後記：聊到這裏，話題還遠沒有結束。在接下來的文章中，我將深入探討構建加密領域AI基准的具體思路和挑战。實驗目前也還在進行，正在不斷優化測試模型、豐富數據集、完善評測框架，並改進自動化測試工程。秉持开放協作的理念，未來所有相關資源——包括數據集、實驗結果、評測框架和自動化測試代碼都會作爲公共資源开源。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。