研報丨AI 與 Web3 數據行業融合的現...

摘要：

LLM 技術的發展讓人們更加關注 AI 與 Web3 的結合，新的應用範式正在逐步展开。本文中，我們將重點研究如何利用 AI 提升 Web3 數據的使用體驗和生產效率。
由於行業尚處早期階段和區塊鏈技術的特性，Web3 數據行業面臨着諸多挑战，包括數據來源、更新頻率、匿名屬性等，使得利用 AI 解決這些問題成爲新關注點。
LLM 相對於傳統人工智能的可擴展性、適應性、效率提升、任務分解、可訪問性和易用性等優勢，爲提高區塊鏈數據的體驗和生產效率提供了想象空間。
LLM 需要大量高質量數據進行訓練，而區塊鏈領域垂直知識豐富且數據公开，可以爲 LLM 提供學習素材。
LLM 也可以幫助生產和提升區塊鏈數據的價值，例如數據清洗、標注、生成結構化數據等。
LLM 不是萬靈藥，需要針對具體業務需求進行應用。既要利用 LLM 的高效率，同時也要注意結果的准確性。

1. AI 與 Web3 的發展與結合

1.1. AI 的發展歷史

人工智能（AI）的歷史可以追溯到上個世紀 50 年代。自 1956 年起，人們开始關注人工智能這一領域，逐漸發展出了早期的專家系統，幫助專業領域解決問題。此後，機器學習的興起，拓展了 AI 的應用領域，AI 开始更廣泛地應用在各行各業。到如今，深度學習和生成式人工智能爆發，帶給了人們無限可能性，其中的每一步都充滿了不斷的挑战與創新，以追求更高的智能水平和更廣泛的應用領域。

圖 1：AI 發展歷程

2022 年 11 月 30 日，ChatGPT 面世，首次展示了 AI 與人類低門檻、高效率交互的可能性。ChatGPT 引發了對人工智能的更廣泛探討，重新定義了與 AI 互動的方式，使其變得更加高效、直觀和人性化，也推動了人們對更多生成式人工智能的關注，Anthropic（Amazon）、DeepMind（Google）、Llama 等模型也隨後進入人們的視野。與此同時，各行各業的從業者也开始積極探索 AI 會如何推動他們所在領域的發展，或者尋求通過與 AI 技術的結合在行業中脫穎而出，進一步加速了 AI 在各個領域的滲透。

1.2. AI 與 Web3 的交融

Web3 的愿景從改革金融體系开始，旨在實現更多的用戶權力，並有望引領現代經濟和文化的轉變。區塊鏈技術爲實現這一目標提供了堅實的技術基礎，它不僅重新設計了價值傳輸和激勵機制，還爲資源分配和權力分散提供了支持。

圖 2：Web3 發展歷程

早在 2020 年，區塊鏈領域的投資公司就曾指出，區塊鏈技術將和 AI 結合，通過對金融、醫療、電子商務、娛樂等全球行業的去中心化，以實現對現有行業的顛覆。

目前，AI 與 Web3 的結合，主要是兩大方向：

● 利用 AI 去提升生產力以及用戶體驗。

● 結合區塊鏈透明、安全、去中心化存儲、可追溯、可驗證的技術特點，以及 Web3 去中心化的生產關系，解決傳統技術無法解決的痛點或者激勵社區參與，提高生產效率。

市場上 AI 與 Web3 的結合有以下的一些探索方向：

圖 3：AI 與 Web3 結合全景圖

● 數據：區塊鏈技術可以應用在模型數據存儲上，提供加密數據集，保護數據隱私和記錄模型使用數據的來源、使用情況，以及校驗數據的真實性。通過訪問和分析存儲在區塊鏈上的數據，AI 可以提取有價值的信息，並用於模型訓練和優化。同時，AI 也可以作爲數據生產工具，去提高 Web3 數據的生產效率。

● 算法：Web3 中的算法可以爲 AI 提供更安全、可信和自主控制的計算環境，爲 AI 體統提供加密保障，在模型參數上，內嵌安全防護欄，防止系統被濫用或者惡意操作。AI 可以與 Web3 中的算法進行交互，例如利用智能合約執行任務、驗證數據和執行決策。同時，AI 的算法也可以爲 Web3 提供更智能化和高效的決策和服務。

● 算力：Web3 的分散式計算資源可以爲 AI 提供高性能的計算能力。AI 可以利用 Web3 中的分散式計算資源進行模型的訓練、數據分析和預測。通過將計算任務分發到網絡上的多個節點，AI 可以加快計算速度，並處理更大規模的數據。

在本文中，我們將重點探索如何利用 AI 的技術，去提升 Web3 數據的生產效率以及使用體驗。

2. Web3 數據現狀

2.1. Web2 & Web3 數據行業對比

作爲 AI 最核心的組成部分“數據”，在 Web3 跟我們熟悉的 Web2 很着很多的區別。差異主要是在於 Web2 以及 Web3 本身的應用架構導致其產生的數據特徵有所不同。

2.1.1. Web2 & Web3 應用架構對比

圖 4：Web2 & Web3 應用架構

在 Web2 架構中，通常是由單一實體（通常是一家公司）來控制網頁或者 APP，公司對於他們構建的內容有着絕對的控制權，他們可以決定誰可以訪問其服務器上的內容和邏輯，以及用戶擁有怎樣的權益，還可以決定這些內容在網上存在的時長。不少案例表明，互聯網公司有權改變其平台上的規則，甚至中止爲用戶提供服務，而用戶對此無法保留所創造的價值。

而 Web3 架構則借助了通用狀態層（Universal State Layer）的概念，將一部分或者全部的內容和邏輯放置在公共區塊鏈上。這些內容和邏輯是公开記錄在區塊鏈上的，可供所有人訪問，用戶可以直接控制鏈上內容和邏輯。而在 Web2 中，用戶需要帳戶或 API 密鑰才能與區塊鏈上的內容進行交互。用戶可以直接控制其對應的鏈上內容和邏輯。不同於 Web2，Web3 用戶無需授權帳戶或 API 密鑰就能與區塊鏈上的內容進行交互（特定管理操作除外）。

2.1.2. Web2 與 Web3 數據特徵對比

圖 5：Web2 與 Web3 數據特徵對比

Web2 數據通常表現爲封閉和高度受限的，具有復雜的權限控制，高度成熟、多種數據格式、嚴格遵循行業標准，以及復雜的業務邏輯抽象。這些數據規模龐大，但互操作性相對較低，通常存儲在中央服務器上，且不注重隱私保護，大多數是非匿名的。

相比之下，Web3 數據更加开放，訪問權限更廣泛，盡管成熟度較低，以非結構化數據爲主，標准化較爲罕見，業務邏輯抽象相對簡化。Web3 的數據規模相對 Web2 較小，但它具有較高的互操作性（比如 EVM 兼容），並可分散或集中存儲數據，同時強調用戶隱私，用戶通常採用匿名方式進行鏈上交互。

2.2. Web3 數據行業現狀與前景，以及遇到的挑战

在 Web2 時代，數據如石油的“儲量”般珍貴，訪問和獲取大規模數據一直是極大的挑战。在 Web3 中，數據的开放性和共享性一下子讓大家覺得“石油到處都是”，使得 AI 模型能夠更輕松地獲取更多的訓練數據，這對於提高模型性能和智能水平至關重要。但對 Web3 這個“新石油” 的數據處理依然有很多問題待解決，主要有以下幾個：

● 數據來源：鏈上數據“標准”繁雜分散，數據處理花費大量人工成本

處理鏈上數據時，需要反復執行耗時而勞動密集的索引過程，需要开發者和數據分析師花費大量時間和資源來適應不同鏈、不同項目之間的數據差異。鏈上數據行業缺乏統一的生產和處理標准，除了記錄到區塊鏈账本上的，events，logs，and traces 等都基本上是項目自己定義和生產（或生成）的，這導致非專業交易者很難辨別並找到最准確和可信的數據，增加了他們在鏈上交易和投資決策中的困難。比如，去中心化交易所 Uniswap 和 Pancakeswap 就有可能在數據處理方法和數據口徑上存在差異，過程中的檢查和統一口徑等工序進一步加大了數據處理的復雜性。

● 數據更新：鏈上數據體量大且更新頻率高，難以及時地處理成結構化數據

區塊鏈是時刻變動的，數據更新以秒甚至毫秒級別計。數據的頻繁產生和更新使其難以維持高質量的數據處理和及時的更新。因此，自動化的處理流程是十分重要的，這也是對於數據處理的成本和效率的一大挑战。Web3 數據行業仍處於初級階段。隨着新合約的層出不窮和迭代更新，數據缺乏標准、格式多樣，進一步增加了數據處理的復雜性。

● 數據分析：鏈上數據的匿名屬性，導致數據身份難以區分

鏈上數據通常不包含足夠的信息來清晰識別每個地址的身份，這使得數據在與鏈下的經濟、社會或法律動向難以聯動。但是鏈上數據的動向與現實世界緊密相關，了解鏈上活動與現實世界中特定個體或實體的關聯性對於特定的場景比如數據分析來說十分重要。

隨着大語言模型（LLM）技術引發的生產力變更討論，能否利用 AI 來解決這些挑战也成爲 Web3 領域的一個焦點關注之一。

3. AI 與 Web3 數據碰撞產生的化學反應

3.1. 傳統 AI 與 LLM 的特徵對比

在模型訓練方面，傳統 AI 模型通常規模較小，參數數量在數萬到數百萬之間，但爲了確保輸出結果的准確性，需要大量的人工標注數據。LLM 之所以如此強大，部分原因在於其使用了海量的語料擬合百億、千億級以上的參數，極大地提升了它對自然語言的理解能力，但這也意味着需要更多的數據來進行訓練，訓練成本相當高昂。

在能力範圍和運行方式上，傳統 AI 更適合特定領域的任務，能夠提供相對精准和專業的答案。相比之下，LLM 更適合通用性任務，但容易產生幻覺問題，這意味着在一些情況下，它的回答可能不夠精確或專業，甚至完全錯誤。因此，如果需要和客觀，可信任，和可以追溯的結果，可能需要進行多次檢查、多次訓練或引入額外的糾錯機制和框架。

圖 6：傳統 AI 與大模型語言模型（LLM）的特徵對比

3.1.1. 傳統 AI 在 Web3 數據領域的實踐

傳統 AI 已經在區塊鏈數據行業展現了其重要性，爲這一領域帶來了更多創新和效率。例如，0xScope 團隊採用 AI 技術，構建了基於圖計算的群集分析算法，通過不同規則的權重分配來幫助准確識別用戶之間的相關地址。這種深度學習算法的應用提高了地址群集的准確性，爲數據分析提供了更精確的工具。Nansen 則將 AI 用於 NFT 價格預測，通過數據分析和自然語言處理技術，提供有關 NFT 市場趨勢的見解。另一方面，Trusta Labs使用了基於資產圖譜挖掘和用戶行爲序列分析的機器學習方法，以增強其女巫檢測解決方案的可靠性和穩定性，有助於維護區塊鏈網絡生態的安全。另一方面，Trusta Labs 採用了圖挖掘和用戶行爲分析的方法，以增強其女巫檢測解決方案的可靠性和穩定性，有助於維護區塊鏈網絡的安全。Goplus 在其運營中利用傳統人工智能來提高去中心化應用程序（dApps）的安全性和效率。他們收集和分析來自 dApp 的安全信息，提供快速風險警報，幫助降低這些平台的風險敞口。這包括通過評估开源狀態和潛在惡意行爲等因素來檢測 dApp 主合同中的風險，以及收集詳細的審計信息，包括審計公司憑證、審計時間和審計報告鏈接。Footprint Analytics 則使用 AI 生成生產結構化數據的代碼，分析 NFT 交易 Wash trading 交易以及機器人账戶篩選排查。

然而，傳統 AI 擁有的信息有限，專注於使用預定的算法和規則執行預設任務，而 LLM 則通過大規模的自然語言數據學習，可以理解和生成自然語言，這使其更適合處理復雜且巨量的文本數據。

最近，隨着 LLM 取得了顯著進展，人們對 AI 與 Web3 數據的結合，也進行了一些新的思考與探索。

3.1.2. LLM 的優勢

LLM 相對於傳統人工智能具有以下優勢：

● 可擴展性：LLM 支持大規模數據處理

LLM 在可擴展性方面表現出色，能夠高效處理大量數據和用戶互動。這使其非常適合處理需要大規模信息處理的任務，如文本分析或者大規模數據清洗。其高度的數據處理能力爲區塊鏈數據行業提供了強大的分析和應用潛力。

● 適應性：LLM 可學習適應多領域需求

LLM 具備卓越的適應性，可以爲特定任務進行微調或嵌入行業或私有數據庫，使其能夠迅速學習和適應不同領域的細微差別。這一特性使 LLM 成爲了解決多領域、多用途問題的理想選擇，爲區塊鏈應用的多樣性提供了更廣泛的支持。

● 提高效率：LLM 自動化任務提高效率

LLM 的高效率爲區塊鏈數據行業帶來了顯著的便利。它能夠自動化原本需要大量人工時間和資源的任務，從而提高生產力並降低成本。LLM 可以在幾秒內生成大量文本、分析海量數據集，或執行多種重復性任務，從而減少了等待和處理時間，使區塊鏈數據處理更加高效。

● 任務分解：可以生成某些工作的具體計劃，把大的工作分成小步驟

LLM Agent 具備獨特的能力，即可以生成某些工作的具體計劃，將復雜任務分解爲可管理的小步驟。這一特性對於處理大規模的區塊鏈數據和執行復雜的數據分析任務非常有益。通過將大型工作分解成小任務，LLM 可以更好地管理數據處理流程，並輸出高質量的分析。

這一能力對於執行復雜任務的 AI 系統至關重要，例如機器人自動化、項目管理和自然語言理解與生成，使其能夠將高級任務目標轉化爲詳細的行動路线，提高任務執行的效率和准確性。

● 可訪問性和易用性：LLM 以自然語言提供用戶友好互動

LLM 的可訪問性使更多用戶能夠輕松與數據和系統進行互動，讓這些互動更加用戶友好。通過自然語言，LLM 使數據和系統更容易訪問和交互，無需用戶學習復雜的技術術語或特定命令，例如，SQL，R，Python 等來做數據獲取和分析。這一特性拓寬了區塊鏈應用的受衆範圍，讓更多的人能夠訪問和使用 Web3 應用和服務，不論他們是否精通技術，從而促進了區塊鏈數據行業的發展和普及。

3.2. LLM 與 Web3 數據的融合

圖 7：區塊鏈數據與 LLM 的融合

大型語言模型的培訓需要依賴大規模數據，通過學習數據中的模式來建立模型。區塊鏈數據中蕴含的交互和行爲模式是 LLM 學習的燃料。數據量和質量也直接影響 LLM 模型的學習效果。

數據不僅僅是 LLM 的消耗品，LLM 還有助於生產數據，甚至可以提供反饋。例如，LLM 可以協助數據分析師在數據預處理方面做出貢獻，如數據清洗和標注，或者生成結構化數據，清除數據中的噪聲，凸顯有效信息。

3.3. 增強 LLM 的常用技術解決方案

ChatGPT 的出現，不僅向我們展示了 LLM 解決復雜問題的通用能力，同時也引發了全球範圍的，對在通用能力上去疊加外部能力的探索。這裏包括，通用能力的增強（包括上下文長度、復雜推理、數學、代碼、多模態等）以及外部能力的擴充（處理非結構化數據、使用更復雜的工具、與物理世界的交互等）。如何將 crypto 領域的專有知識以及個人的個性化私有數據嫁接到大模型的通用能力上，是大模型在 crypto 垂直領域商業化落地的核心技術問題。

目前，大多數應用都集中在檢索增強生成（RAG）上，比如提示工程和嵌入技術，已經存在的代理工具也大多都聚焦於提高 RAG 工作的效率和准確性。市場上主要的基於 LLM 技術的應用棧的參考架構有以下幾種：

● Prompt Engineering

圖 8：Prompt Engineering

當前，大多數從業者在構建應用時採用基礎解決方案，即 Prompt Engineering。這一方法通過設計特定的 Prompt 來改變模型的輸入，以滿足特定應用的需求，是最方便快捷的做法。然而，基礎的 Prompt Engineering 存在一些限制，如數據庫更新不及時、內容冗雜、以及對輸入上下文長度（In-Context Length）的支持和多輪問答的限制。

因此，行業內也在研究更先進的改進方案，包括嵌入（Embedding）和微調（Fine-tuning）。

● 嵌入（Embedding）

嵌入（Embedding）是一種廣泛應用於人工智能領域的數據表示方法，能高效捕獲對象的語義信息。通過將對象屬性映射成向量形式，嵌入技術能夠通過分析向量之間的相互關系，快速找到最有可能正確的答案。嵌入可以在 LLM 的基礎上構建，以利用該模型在廣泛語料上學到的豐富語言知識。通過嵌入技術將特定任務或領域的信息引入到預訓練的大模型中，使得模型更專業化，更適應特定任務，同時保留了基礎模型的通用性。

用通俗的話來講，嵌入就類似於你給一個經過綜合訓練的大學生一本工具書，讓他拿着擁有特定任務相關知識的工具書去完成任務，他可以隨時查閱工具書，然後可以解決特定的問題。

● 微調（Fine-tuning）

圖 9：Fine Tuning

微調（Fine-tuning）與嵌入不同，通過更新已經預訓練的語言模型的參數，使其適應特定任務。這種方法允許模型在特定任務上表現出更好的性能，同時保持通用性。微調的核心思想是調整模型參數，捕捉與目標任務相關的特定模式和關系。但微調的模型通用能力上限仍然受限於基座模型本身。

用通俗的話來講，微調就類似於給經過綜合訓練的大學生上專業知識課程，讓他掌握除了綜合能力以外的專業課知識，能自行解決專業板塊的問題。

● 重新訓練 LLM

當前的 LLM 雖然強大，但不一定能夠滿足所有需求。重新訓練 LLM 是一種高度定制化的解決方案，通過引入新數據集和調整模型權重，使其更適應特定任務、需求或領域。然而，這種方法需要大量計算資源和數據，並且管理和維護重新訓練後的模型也是挑战之一。

● Agent 模型

圖 10：Agent 模型

Agent 模型是一種構建智能代理的方法，它以 LLM 作爲核心控制器。這個系統還包括幾個關鍵組成部分，以提供更全面的智能。

● Planning，規劃：將大任務分成小任務，這樣更容易完成

● Memory，反思：通過反思過去的行爲，改進未來的計劃

● Tools，工具使用：代理可以調用外部工具獲取更多信息，如調用搜索引擎、計算器等

人工智能代理模型具備強大的語言理解和生成能力，能夠解決通用問題，進行任務分解以及自我反思。這使得它在各種應用中都有廣泛的潛力。然而，代理模型也存在一些局限性，例如受到上下文長度的限制、長期規劃和任務拆分容易出錯、輸出內容的可靠性不穩定等問題。這些局限性需要長期不斷的研究和創新，以進一步拓展代理模型在不同領域的應用。

以上的各種技術並不是相互排斥的，它們可以在訓練和增強同一個模型的過程中一起使用。开發者可以充分發揮現有大語言模型的潛力，嘗試不同的方法，以滿足日益復雜的應用需求。這種綜合使用不僅有助於提高模型的性能，還有助於推動 Web3 技術的快速創新和進步。

然而，我們認爲，雖然現有的 LLM 已經在 Web3 的快速發展中發揮了重要作用，但在充分嘗試這些現有模型（如 OpenAI、Llama 2 以及其他开源 LLM）之前，我們可以從淺入深，從 prompt engineering 和嵌入等 RAG 策略入手，謹慎考慮微調和重新訓練基礎模型。

3.4. LLM 如何加速區塊鏈數據生產的各個流程

3.4.1. 區塊鏈數據的一般處理流程

當今，區塊鏈領域的建設者逐漸認識到數據產品的價值。這一價值覆蓋了產品運營監控、預測模型、推薦系統以及數據驅動的應用程序等多個領域。盡管這一認知逐漸增強，但作爲數據獲取到數據應用中不可或缺的關鍵步驟，數據處理往往被忽視。

圖 11：區塊鏈數據處理流程

● 將區塊鏈原始非結構化數據，如 events 或 logs 等，轉換爲結構化的數據

區塊鏈上的每一筆交易或事件都會生成 events 或 logs，這些數據通常是非結構化的。這一步驟是獲取數據的第一入口，但數據仍然需要被進一步處理以提取有用信息，得到結構化的原始數據。這包括整理數據、處理異常情況和轉化爲通用格式。

● 將結構化的原始數據，轉換爲具有業務意義的抽象表

在得到結構化原始數據後，需要進一步進行業務抽象，將數據映射到業務實體和指標上，比如交易量、用戶量等業務指標，將原始數據轉化爲對業務和決策有意義的數據。

● 從抽象表中，計算提取業務指標

有了抽象的業務數據後，可以在業務抽象的數據上進行進一步計算，就可以得出各種重要的衍生指標。例如交易總額的月增長率、用戶留存率等核心指標。這些指標可以借助 SQL、Python 等工具實現，更加有可能幫助監控業務健康、了解用戶行爲和趨勢，從而支持決策和战略規劃。

3.4.2. 區塊鏈數據生成流程加入 LLM 後的優化

LLM 在區塊鏈數據處理中可以解決多個問題，包括但不限於以下內容：

處理非結構化數據：

● 從交易日志和事件中提取結構化信息： LLM 可以分析區塊鏈的交易日志和事件，提取其中的關鍵信息，如交易金額、交易方地址、時間戳等，將非結構化數據轉化爲的帶有業務意義的數據，使其更易於分析和理解。

● 清洗數據，識別異常數據： LLM 可以自動識別和清洗不一致或異常的數據，幫助確保數據的准確性和一致性，從而提高數據質量。

進行業務抽象：

● 將原始鏈上數據映射到業務實體： LLM 可以將原始區塊鏈數據映射到業務實體，例如將區塊鏈地址映射到實際用戶或資產，從而使業務處理更加直觀和有效。

● 處理非結構化鏈上內容，打標籤： LLM 可以分析非結構化數據，如 Twitter 情感分析結果，將其標記爲正面、負面或中性情感，從而幫助用戶更好地理解社交媒體上的情感傾向。

自然語言解讀數據：

● 計算核心指標：基於業務抽象，LLM 可以計算核心業務指標，如用戶交易量、資產價值、市場份額等，以幫助用戶更好地了解其業務的關鍵性能。

● 查詢數據： LLM 可以通過 AIGC，理解用戶意圖，生成 SQL 查詢，使用戶能夠以自然語言提出查詢請求，而不必編寫復雜的 SQL 查詢語句。這增加了數據庫查詢的可訪問性。

● 指標選擇、排序和相關性分析： LLM 可以幫助用戶選擇、排序和分析不同的多個指標，以更好地理解它們之間的關系和相關性，從而支持更深入的數據分析和決策制定。

● 產生業務抽象的自然語言描述： LLM 可以根據事實數據，生成自然語言摘要或解釋，以幫助用戶更好地理解業務抽象和數據指標，提高可解釋性，並使決策更具合理性。

3.5. 目前用例

根據 LLM 自身的技術以及產品體驗優勢，它可以被應用到不同的鏈上數據場景，技術上從易到難可以將這些場景分成四類：

● 數據轉換：進行數據增強、重構等操作，如文本摘要、分類、信息抽取。這類應用开發較快，但更適合通用場景，不太適合大量數據的簡單批量化處理。

● 自然語言接口：將 LLM 連接知識庫或工具，實現問答或基本工具使用的自動化。這可以用於構建專業聊天機器人，但其實際價值受其所連接的知識庫質量等其他因素影響。

● 工作流自動化：使用 LLM 實現業務流程的標准化和自動化。這可以應用於較復雜的區塊鏈數據處理流程，如解構智能合約運行過程、風險識別等。

● 協助機器人與助手輔助系統：輔助系統是在自然語言接口的基礎上，集成更多數據源和功能的增強系統，大幅提高用戶工作效率。

圖 12：LLM 應用場景

3.6. LLM 的局限性

3.6.1. 行業現狀：成熟應用、正在攻克的問題以及尚未解決的挑战

在 Web3 數據領域，盡管已經取得了一些重要的進展，但仍然面臨一些挑战。

相對成熟的應用：

● 使用 LLM 進行信息處理：LLM 等 AI 技術已成功用於生成文本摘要、總結、解釋等工作，幫助用戶從長篇文章、專業報告中提取關鍵信息，提高了數據的可讀性和可理解性。

● 使用 AI 解決开發問題： LLM 已經應用於解決开發過程中的問題，例如替代StackOverflow 或搜索引擎，爲开發者提供問題解答和編程支持。

有待解決與正在探索的問題：

● 利用 LLM 生成代碼：行業正在努力將 LLM 技術應用於自然語言到 SQL 查詢語言的轉換，以提高數據庫查詢的自動化和可理解性。然而，過程中會有很多困難，比如在某些情境下，生成的代碼要求極高的准確性，語法必須百分之百正確，以確保程序能夠無 bug 運行，並獲得正確的結果。難點還包括確保問題回答的成功率、正確率，以及對業務的深刻理解。

● 數據標注問題：數據標注對於機器學習和深度學習模型的訓練至關重要，但在 Web3 數據領域，特別是處理匿名的區塊鏈數據時，標注數據的復雜性較高。

● 准確性和幻覺（Hallucination）問題：AI 模型中幻覺的出現可能受多因素影響，包括有偏見或不足的訓練數據、過度擬合、有限的上下文理解、缺乏領域知識、對抗性攻擊和模型架構。研究人員和开發者需要不斷改進模型的訓練和校准方法，以提高生成文本的可信度和准確性。

● 利用數據進行業務分析和文章輸出：將數據用於業務分析和生成文章仍然是一個具有挑战性的問題。問題的復雜性、需要精心設計的提示（prompt）、以及高質量的數據、數據量、減少幻覺問題的方法都是待解決的問題。

● 根據業務領域自動索引智能合同數據以進行數據抽象：自動爲不同業務領域的智能合同數據建立索引以進行數據抽象仍然是一個未解決的問題。這需要綜合考慮不同業務領域的特點，以及數據的多樣性和復雜性。

● 處理時序數據，表格文檔數據等更復雜的模態：DALL·E 2 等多模態模型非常擅長在文字生成圖像、語音等常見模態。而在區塊鏈以及金融領域需要特別地對待一些時序數據，而非簡單地把文本向量化就能解決。聯和時序數據與文本，跨模態聯合訓練等，是實現數據智能分析以及應用的重要研究方向。

3.6.2. 爲何只靠 LLM 不能完美解決區塊鏈數據行業的問題

作爲語言模型，LLM 更適用於處理對流暢度要求較高的場景，而在追求准確性方面，可能需要對模型進行更進一步的調整。在將 LLM 應用於區塊鏈數據行業時，以下框架可提供一些參考。

圖 13：區塊鏈數據行業下 LLM 輸出的流暢性、准確性和用例風險

在評估 LLM 在不同應用中的適用性時，關注流暢度和准確性是至關重要的。流暢度指的是模型的輸出是否自然、通順，准確性則表示模型的答案是否准確。這兩個維度在不同應用場景中有不同的要求。

對於流暢度要求較高的任務，如自然語言生成、創意寫作等，LLM 通常能夠勝任，因爲其在自然語言處理方面的強大性能使其能夠生成流暢的文本。

區塊鏈數據面臨着數據解析、數據處理、數據應用等多方面的問題。LLM 擁有卓越的語言理解和推理能力，使其成爲與區塊鏈數據互動、整理和概括的理想工具。然而，LLM 並不能解決所有區塊鏈數據領域的問題。

在數據處理方面，LLM 更適合快速迭代和探索性處理鏈上數據，不斷嘗試新的處理方法。然而，LLM 在生產環境中的詳細核對等任務方面仍存在一些限制。典型的問題是 token 長度不夠，無法應對長上下文的內容。耗時的 prompt，回答不穩定影響下遊任務進而導致成功率不穩定的問題，以及執行大批量任務的效率不高。

其次，LLM 處理內容的過程中很可能出現幻覺問題。據估計，ChatGPT 的幻覺概率約爲 15% 至 20%，而由於其處理過程的不透明性，很多錯誤難以察覺。因此，框架的建立和專家知識的結合變得至關重要。此外，LLM 結合鏈上數據還是有很多挑战：

● 鏈上數據實體類型多、數量龐大，以何種形式投喂給 LLM，有效地運用在具體的商業化場景，類似其他垂直行業，需要更多研究和探索。

● 鏈上數據包括結構化和非結構化數據，目前行業大多數數據解決方案，都是基於對業務數據的理解。解析鏈上數據的過程中，用 ETL 去過濾，清洗，補充和復原業務邏輯，進一步把非結構化數據整理爲結構化數據，可以爲後期多種業務場景提供更高效的分析。比如，結構化的 DEX trades，NFT marketplace transactions，wallet address portfolio 等，就具有前面提到的高質量，高價值，准確和真實等特點，可以給通用 LLM 提供高效的補充。

4. 被誤解的 LLM

4.1. LLM 可以直接處理非結構化數據，因此結構化數據將不再被需要？

LLM 通常基於海量文本數據預訓練而來，天然適合處理各類非結構化的文本數據。然而，各個行業已經擁有大量結構化數據，尤其 Web3 領域中解析後的數據。如何有效的利用這些數據，增強 LLM，是一個行業的熱門研究課題。

對於 LLM，結構化數據仍然具有以下的優勢：

● 海量：大量的數據儲存在各種應用背後的數據庫和其他標准格式裏面，特別是私有數據。每個公司和行業都還有大量 LLM 沒有用於預訓練的牆內數據。

● 已有：這些數據不需要重新生產，投入成本極低，唯一的問題是怎么用起來。

● 高質量和高價值：領域內長期積累的，蕴含專家的專業知識，通常都沉澱到了結構化數據裏面，用於產學研。結構化數據的質量是數據可用性的關鍵，其中包括數據的完整性、一致性、准確性、唯一性和事實性。

● 高效率：結構化數據以表格、數據庫或其他規範格式存儲，模式是預先定義的，並且在整個數據集中保持一致。這意味着數據的格式、類型和關系都是可預測和可控的，使得數據的分析和查詢更加簡單和可靠。而且，行業已經有成熟的 ETL 及各種數據處理和管理工具，使用起來也更加高效和便捷。LLM 可以通過 API，把這些數據使用起來。

● 准確性和事實性：LLM 的文本數據，基於 token 概率，目前還不能穩定的輸出確切的答案，產生的幻覺問題一直是 LLM 要解決的核心根本問題。對於很多行業和場景，會形成安全和可靠性問題，比如，醫療，金融等。結構化數據，正是可以輔助和矯正LLM 這些問題的一個方向。

● 體現關系圖譜，和特定業務邏輯：不同類型的結構化數據，可以以特定的組織形式（關系型數據庫，圖數據庫等），輸入到 LLM，解決不同類型的領域問題。結構化數據使用標准化的查詢語言（如 SQL），使得對數據進行復雜的查詢和分析變得更加高效和准確。知識圖譜 (Knowledge Graph) 可以更好地表達實體之間的關系，也更容易進行關聯查詢。

● 使用成本低：不用 LLM 每次重新從底層重新訓練整個底座模型，可以結合 Agents 和LLM API 等 LLM 賦能方式，更快更低成本的接入 LLM。

目前市場上還有一些腦洞大开的觀點，認爲 LLM 在處理文本信息和非結構化信息方面的能力極強，只需將原始數據，包括非結構化數據，簡單導入到 LLM，就能達到目的。這個想法類似於要求通用 LLM 解數學題，在沒有專門構建數學能力模型的情況下，大多數 LLM 可能會在處理簡單的小學加減題時出錯。反而，建立類似數學能力模型，和圖像生成模型的 Crypto LLM 垂直模型，才是解決 LLM 在 Crypto 領域更落地的實踐。

4.2. LLM 可以從新聞、推特等文字信息推測內容，人們不再需要鏈上數據分析來得出結論？

LLM 雖然可以從新聞、社交媒體等文本中獲得信息，但直接從鏈上數據中獲得的洞察仍然是不可或缺的，主要原因有:

● 鏈上數據是原始的第一手資訊，而新聞和社交媒體中的信息可能存在片面性或誤導性。直接分析鏈上數據可以減少信息偏差。盡管利用 LLM 進行文本分析存在理解偏差的風險，但直接分析鏈上數據可以減少誤讀。

● 鏈上數據包含全面的歷史交互和交易記錄，分析可以發現長期趨勢和模式。鏈上數據還可以展現整個生態系統的全貌，如資金流向、各方關系等。這些宏觀的洞察有助於更深入地理解狀況。而新聞和社交媒體信息通常更零散且短期。

● 鏈上數據是开放的。任何人都可以驗證分析結果，避免信息的不對稱。而新聞和社交媒體未必都如實披露。文本信息和鏈上數據可以相互驗證。綜合兩者可以形成更立體和准確的判斷。

鏈上數據分析仍是不可或缺的。LLM 從文本中獲取信息具有輔助作用，但不能取代直接分析鏈上數據。充分利用兩者優勢才能取得最佳效果。

4.3. 利用 LangChain、LlamaIndex 或其他 AI 工具，在 LLM 的基礎上構建區塊鏈數據解決方案非常容易？

LangChain 和 LlamaIndex 等工具爲構建自定義的簡單 LLM 應用提供了便利，使快速搭建成爲可能。然而，將這些工具成功應用於實際生產環境中涉及到更多的挑战。構建一個高效運行、保持高質量的 LLM 應用是一項復雜的任務，需要深入理解區塊鏈技術和 AI 工具的工作原理，並有效地將它們整合在一起。這對於區塊鏈數據行業來說，是一項重要但具有挑战性的工作。

在這個過程中，必須認識到區塊鏈數據的特性，它要求極高的精准性和可重復校驗性。一旦數據通過 LLM 進行處理和分析，用戶對其准確性和可信度有很高的期望。這與 LLM 的模糊容錯性之間存在着潛在的矛盾。因此，在構建區塊鏈數據解決方案時，必須仔細權衡這兩方面的需求，以滿足用戶的期望。

當前市場上，雖然已經有了一些基礎工具，但這個領域仍在快速演進和不斷迭代。類比於 Web2 世界的發展歷程，從最初的 PHP 編程語言到更成熟、可擴展的方案如 Java、Ruby、Python，以及 JavaScript 和 Node.js 等，再到 Go 和 Rust 等新興技術，都經歷了不斷的演變。AI 工具也在不斷變化，新興的 GPT 框架如 AutoGPT，Microsft AutoGen，及最近OpenAI 自己推出的 ChatGPT 4.0 Turbo 的 GPTs 和 Agents 等只是展示了未來可能性的一部分。這表明，區塊鏈數據行業和 AI 技術都還有許多發展空間，需要不斷努力和創新。

當前在應用 LLM 時，有兩個陷阱需要特別注意：

● 期望值過高：很多人認爲 LLM 可以解決一切問題，但實際上 LLM 有明顯的局限性。它需要大量的計算資源，訓練成本高昂，而且訓練過程可能不穩定。對 LLM 的能力要有現實的期望，明白它在某些場景下表現出色，如自然語言處理和文本生成，但在其他領域可能無法勝任。

● 忽視業務需求：另一個陷阱是強行應用 LLM 技術，而不充分考慮業務需求。在應用 LLM 之前，務必明確具體的業務需求。需要評估 LLM 是否是最佳技術選擇，並做好風險評估和控制。強調 LLM 的有效應用需要根據實際情況慎重考慮，避免誤用。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

研報丨AI 與 Web3 數據行業融合的現狀、競爭格局與未來機遇探析（上）