詳解Web3原生數據管道的意義、挑战以及對...

撰寫：Jay : : FP 編譯：深潮 TechFlow

2008 年比特幣白皮書的發布引發了人們對信任概念的重新思考。區塊鏈隨後擴展了其定義，包括了無需信任的系統的概念，並迅速發展，認爲個體主權、金融民主化和所有權等不同類型的價值可以應用於現有系統。當然，在區塊鏈能夠實際應用之前，可能需要進行大量的驗證和討論，因爲與各種現有系統相比，區塊鏈的特點可能顯得有些激進。然而，如果我們對這些場景持樂觀態度，構建數據管道並分析區塊鏈存儲中包含的有價值信息，有潛力成爲行業發展的另一個重要轉折點，因爲我們可以觀察到以前從未存在過的 Web3 原生商業智能。

本文通過將現有 IT 市場常用的數據管道投射到 Web3 環境中，探討了 Web3 原生數據管道的潛力。文章討論了這些管道的好處、需要解決的挑战以及這些管道對行業的影響。

1.奇點來自信息創新

“語言是人類與低等動物之間最重要的區別之一。這不僅僅是發音的能力，而是將明確的聲音與明確的思想聯系起來，並將這些聲音用作思想交流的符號。"

— 達爾文

在歷史上，人類文明的重大進步伴隨着信息共享的創新。我們的祖先使用語言，包括口頭和書面語言，彼此交流，並將知識傳承給後代。這使他們在其他物種面前具有重大優勢。書寫、紙張和印刷術的發明使得更廣泛地分享信息成爲可能，這導致了科學、技術和文化的重大進步。特別是古騰堡聖經的金屬活字印刷術是一個分水嶺時刻，因爲它使得大規模生產書籍和其他印刷材料成爲可能。這對宗教改革、民主革命和科學進步的起點產生了深遠影響。

2000 年代 IT 技術的快速發展使我們能夠更深入地了解人類行爲。這導致了生活方式的變化，現代大多數人基於數字信息做出各種決策。正因爲如此，我們將現代社會稱爲“IT 創新時代”。

而在互聯網全面商業化僅 20 年後，人工智能技術再次讓世界驚嘆。出現了許多可以取代人力的應用程序，許多人正在討論 AI 將改變的文明。有些人甚至處於否認狀態，想知道這樣一種技術如何能夠如此迅速地出現，以至於能夠動搖我們社會的基礎。盡管有“摩爾定律”表明半導體的性能會隨着時間呈指數級增長，但 GPT 的出現所帶來的變化卻太突然，無法立即面對。

然而，有趣的是，GPT 模型本身實際上並不是一種非常突破性的架構。另一方面，AI 行業將以下列爲 GPT 模型的主要成功因素：1）定義可以針對大客戶群體的業務領域，以及 2）通過數據管道進行模型調優——從數據採集到最終結果和基於結果的反饋。簡而言之，通過完善服務提供目的和升級數據/信息處理過程，這些應用程序能夠實現創新。

2.數據驅動的決策無處不在

我們所說的大多數創新實際上都是基於對積累的數據的處理，而不是基於機遇或直覺。正如俗話所說，“在資本主義市場上，不是強者生存，而是幸存者強”。如今的企業競爭激烈，市場飽和。因此，企業正在收集和分析各種數據，以抓住即使是最小的利基。

我們可能過於沉迷於 Schumpeter（深潮注：熊彼特，著名經濟學家）的“創造性破壞”理論，而過於重視憑直覺做出決策。然而，即使是出色的直覺最終也是個人累積數據和信息的產物。數字世界將在未來更深入地滲透到我們的生活中，越來越多的敏感信息將以數字數據的形式呈現。

Web3 市場因其賦予用戶對其數據的控制權的潛力而受到廣泛關注。然而，作爲 Web3 的基礎技術的區塊鏈領域，目前更關注解決三難問題（深潮注：三角困境，即安全、去中心化和可擴展問題）。爲了使新技術在現實世界中具有說服力，重要的是开發可以以多種方式使用的應用程序和智能。我們已經看到這種情況發生在大數據領域，自 2010 年左右以來，構建大數據處理和數據管道的方法論已經取得了重大進展。在 Web3 的背景下，必須努力推動行業發展，建立數據流系統，以便產生基於數據的智能。

3.基於鏈上數據流的機遇

那么，我們可以從 Web3 原生數據流系統中捕捉到哪些機遇，需要解決哪些挑战才能抓住這些機遇呢？

3.1 優點

簡而言之，配置 Web3 原生數據流的價值在於可以安全有效地將可靠數據分發給多個實體，從而可以提取有價值的見解。

數據冗余性——鏈上數據不太可能丟失，更具彈性，因爲協議網絡將數據片段存儲在多個節點上。

數據安全性——鏈上數據具有防篡改性，因爲它經過由分散節點組成的網絡的驗證和共識。

數據主權——數據主權是用戶擁有和控制自己數據的權利。通過鏈上數據流，用戶可以看到他們的數據如何被使用，並選擇僅與那些有合法需要訪問的人分享。

無需許可和透明——鏈上數據是透明且防篡改的。這確保了正在處理的數據也是可靠的信息來源。

穩定運行——當數據流在分布式環境中由協議進行編排時，由於沒有單點故障，每個層面暴露於停機時間的概率顯著降低。

3.2 應用案例

信任是不同實體相互交互和做出決策的基礎。因此，當可靠數據可以安全分發時，意味着許多交互和決策可以通過各種實體參與的 Web3 服務進行。這有助於最大化社會資本，我們可以想象以下幾種應用案例。

3.2.1 服務/協議應用

基於規則的自動化決策系統——協議使用關鍵參數來運行服務。這些參數定期調整以穩定服務狀態並爲用戶提供最佳體驗。然而，協議無法始終監控服務狀態並及時對參數進行動態更改。這就是鏈上數據流的作用。鏈上數據流可以用於實時分析服務狀態並建議與服務要求相匹配的最佳參數集（例如，爲借貸協議應用自動浮動利率機制）。

信貸市場增長——傳統上，信用被用於金融市場中衡量個人的償還能力。這有助於提高市場效率。然而，在 Web3 市場中，信用的定義仍不清晰。這是因爲個人數據稀缺，行業之間缺乏數據治理。因此，整合和收集信息變得困難。通過構建一個收集和處理鏈上碎片化數據的過程，可以重新定義 Web3 市場中的信用市場（例如，Spectral 的 MACRO（多資產信用風險預言機）評分）。

去中心化社交/NFT 擴展——去中心化社會優先考慮用戶控制、隱私保護、抗審查和社區治理。這提供了一種替代的社會範式。因此，可以建立一個管道來更順暢地控制和更新各種元數據，並促進平台之間的遷移。

欺詐檢測——使用智能合約的 Web3 服務容易受到惡意攻擊，這些攻擊可能竊取資金、入侵系統，並導致脫鉤和流動性攻擊。通過創建一個能夠提前檢測這些攻擊的系統，Web3 服務可以制定快速應對計劃，並保護用戶免受傷害。

3.2.2 合作與治理倡議

完全鏈上的 DAO——去中心化自治組織（DAO）在有效執行治理和公共資金方面嚴重依賴鏈下工具。通過構建一個鏈上數據處理流程，爲 DAO 運營創建一個透明的流程，可以進一步增強 Web3 原生 DAO 的價值。

緩解治理疲勞——Web3 協議決策通常通過社區治理進行。然而，有許多因素可能使參與者難以參與治理，例如地理障礙、監控壓力、治理所需的專業知識缺乏、隨機發布的治理議程以及不便的用戶體驗。如果可以創建一個工具，簡化參與者從理解到實際實施個體治理議程事項的處理過程，協議治理框架可以更高效、更有效地運作。

協作作品的开放數據平台——在現有的學術和工業界中，許多數據和研究材料沒有公开披露，這可能使市場的整體發展非常低效。另一方面，鏈上數據池可以促進比現有市場更多的協作倡議，因爲它們對任何人都是透明和可訪問的。許多代幣標准和 DeFi 解決方案的發展就是很好的例子。此外，我們可以爲各種目的運營公共數據池。

3.2.3 網絡診斷

指數研究——Web3 用戶創建各種指標來分析和比較協議的狀態。可以研究和實時顯示多個客觀指標（例如，Nakaflow 的中本聰系數）。

協議指標——通過處理諸如活躍地址數量、交易數量、資產流入/流出以及網絡產生的費用等數據，可以分析協議的性能。這些信息可以用於評估特定協議更新的影響、MEV 的狀態以及網絡的健康狀況。

3.3 挑战

鏈上數據具有可以增加行業價值的獨特優勢。然而，要充分實現這些優勢，必須解決行業內外的許多挑战。

缺乏數據治理——數據治理是建立一致和共享的數據政策和標准，以促進每個數據基元的集成的過程。目前，每個鏈上協議都建立自己的標准並檢索自己的數據類型。然而，問題在於聚合這些協議數據並爲用戶提供 API 服務的實體之間缺乏數據治理。這使得服務之間難以集成，結果用戶難以獲得可靠和全面的見解。

成本效率低下——將冷數據存儲在協議中可以爲用戶節省數據安全和服務器成本。然而，如果需要頻繁訪問數據進行分析或需要大量計算資源，將其存儲在區塊鏈上可能不劃算。

預言機問題——智能合約只有在能夠訪問來自現實世界的數據時才能充分發揮作用。然而，這些數據並不總是可靠或一致的。與通過共識算法維護完整性的區塊鏈不同，外部數據並不是確定性的。預言機解決方案必須不斷發展，以確保外部數據的完整性、質量和可擴展性，而不依賴於特定的應用層。

協議尚處初級階段——協議使用自己的代幣激勵用戶保持服務運行並支付服務費用。然而，操作協議所需的參數（例如，服務用戶的精確定義和激勵方案）通常管理得很幼稚。這意味着協議的經濟可持續性難以驗證。如果許多協議有機地連接並創建數據管道，那么管道是否能夠良好運作的不確定性將更大。

數據檢索時間慢——協議通常通過許多節點的共識來處理交易，與傳統的 IT 業務邏輯相比，這會限制信息處理的速度和數量。這種瓶頸很難解決，除非組成管道的所有協議的性能顯著提高。

Web3 數據的真正價值——區塊鏈是孤立的系統，尚未與現實世界相連接。在收集 Web3 數據時，我們需要考慮收集的數據是否能夠提供有意義的見解，足以支付建立數據管道的成本。

陌生的語法 —— 現有的 IT 數據基礎設施和區塊鏈基礎設施運作方式非常不同。甚至所使用的編程語言也不同，區塊鏈基礎設施通常使用低級語言或專爲區塊鏈需求設計的新語言。這使得新开發者和服務用戶學習如何處理每個數據原語變得困難，因爲他們需要學習一種新的編程語言或一種新的處理區塊鏈數據的思維方式。

4.管道化的 Web3 數據樂高

當前的 Web3 數據原語之間沒有連接，它們獨立地提取和處理數據。這使得實驗信息處理的協同效應變得困難。爲了解決這個問題，本文介紹了在 IT 市場常用的數據管道，並將現有的 Web3 數據原語映射到該管道上。這將使使用案例更加具體化。

4.1 通用數據管道

數據管道的構建就像是在日常生活中概念化和自動化重復決策過程的過程。通過這樣做，人們可以隨時獲取所需的特定質量的信息，並將其用於決策。要處理的非結構化數據越多，使用信息的頻率越高，或者需要實時分析的程度越高，通過自動化這一系列過程可以節省獲取未來決策所需主動性的時間和成本。

上圖顯示了在現有 IT 基礎設施市場中用於構建數據管道的通用架構。適用於分析目的的數據從正確的數據源收集，並根據數據的性質和分析要求存儲在適當的存儲解決方案中。例如，數據湖提供了用於可擴展和靈活分析的原始數據存儲解決方案，而數據倉庫專注於存儲結構化數據，以進行針對特定業務邏輯優化的查詢和分析。然後，數據以各種方式被處理爲洞察力或實用信息。

每個解決方案層次也可以以打包服務的形式提供。將從數據提取到加載的一系列過程連接起來的 ETL（抽取、轉換、加載）SaaS 產品組也越來越受到關注（例如 FiveTran、Panoply、Hivo、Rivery）。順序並不總是單向的，根據組織的具體需求，各層次可以以多種方式相互連接。構建數據管道時最重要的是要最大限度地減少數據在發送和接收到每個服務器層次時可能發生的數據丟失風險。這可以通過優化服務器的解耦程度和使用可靠的數據存儲和處理解決方案來實現。

4.2 具有鏈上環境的管道

前面介紹的數據管道的概念圖可以應用於鏈上環境，如上圖所示，但需要注意的是，完全去中心化的管道是無法形成的，因爲每個基本組件在某種程度上都依賴於中心化的鏈下解決方案。此外，上圖目前並未包括所有的 Web3 解決方案，分類的邊界可能存在模糊之處——例如，KYVE 除了作爲流媒體平台外，還包括數據湖的功能，可以看作是一個數據管道本身。此外，Space and Time 被歸類爲去中心化數據庫，但它提供了諸如 RestAPI 和流媒體等 API 網關服務，以及 ETL 服務。

4.2.1 捕獲/處理

爲了使普通用戶或 dApp 能夠高效地使用/操作服務，他們需要能夠輕松識別和訪問主要在協議內部生成的數據源，例如交易、狀態和日志事件。這一層是一個中間件在其中發揮作用，幫助包括預言機、消息傳遞、身份驗證和 API 管理在內的過程。主要的解決方案如下。

流媒體/索引平台

Bitquery、Ceramic、KYVE、Lens、Streamr Network、The Graph、各個協議的區塊瀏覽器等。

節點即服務和其他 RPC/API 服務

Alchemy、All that Node、Infura、Pocket Network、Quicknode 等。

預言機

API3、Band Protocol、Chainlink、Nest Protocol、Pyth、Supra 預言機 s 等。

4.2.2 存儲

與 Web2 存儲解決方案相比，Web3 存儲解決方案具有持久性和去中心化等幾個優勢。然而，它們也存在一些缺點，例如高成本、數據更新和查詢的困難。因此，出現了各種解決方案，可以解決這些缺點，並實現對 Web3 上結構化和動態數據的高效處理——每個解決方案的特點各不相同，例如處理的數據類型、是否結構化以及是否具有嵌入式查詢功能等。

去中心化存儲網絡

Arweave、Filecoin、KYVE、Sia、Storj 等。

去中心化數據庫

基於 Arweave 的數據庫（Glacier、HollowDB、Kwil、WeaveDB）、ComposeDB、OrbitDB、Polybase、Space and Time、Tableland 等。

*每個協議都有不同的永久存儲機制。例如，Arweave 是基於區塊鏈的模型，類似於以太坊存儲，將數據永久存儲在鏈上，而 Filecoin、Sia 和 Storj 是基於合約的模型，將數據存儲在鏈下。

4.2.3 轉換

在 Web3 的背景下，轉換層與存儲層一樣重要。這是因爲區塊鏈的結構基本上由分布式節點集合組成，這使得使用擴展性後端邏輯變得容易。在人工智能行業，人們積極探索利用這些優勢進行聯邦學習領域的研究，並出現了專門用於機器學習和人工智能操作的協議。

數據訓練/建模/計算

Akash、Bacalhau、Bittensor、Gensyn、Golem、Together 等。

*聯邦學習是一種通過將原始模型分布在多個原生客戶端上，使用存儲的數據對其進行訓練，然後在中央服務器上收集學習到的參數的方法，用於訓練人工智能模型。

4.2.4 分析/使用

下面列出的儀表板服務和最終用戶的洞察與分析解決方案是允許用戶觀察和從特定協議中發現各種洞察的平台。其中一些解決方案還爲最終產品提供 API 服務。然而，需要注意的是，這些解決方案中的數據並不總是准確的，因爲它們大多使用單獨的鏈下工具來存儲和處理數據。也可以觀察到解決方案之間的錯誤。

同時，有一個名爲“Web3 Functions”的平台可以自動/觸發智能合約的執行，就像谷歌雲等中心化平台觸發/執行特定的業務邏輯一樣。使用這個平台，用戶可以以 Web3 原生方式實現業務邏輯，而不僅僅通過處理鏈上數據來獲取洞察。

儀表板服務

Dune Analytics、Flipside Crypto、Footprint、Transpose 等。

最終用戶的洞察與分析

Chainalaysis、Glassnode、Messari、Nansen、The Tie、Token Terminal 等。

Web3 Functions

Chainlink 的 Functions、Gelato Network 等。

5.總結思考

正如 Kant 所說的那樣，我們只能目睹事物的現象，而無法觸及其本質。盡管如此，我們還是利用了被稱爲“數據”的觀察記錄來處理信息和知識，我們看到信息技術的創新如何推動文明的發展。因此，在 Web3 市場中構建一個數據管道，除了具有去中心化的特點外，還可以作爲實際捕捉這些機遇的起點發揮關鍵作用。我想用幾點思考來總結本文。

5.1 存儲解決方案的作用將變得更加重要

擁有數據管道的最重要前提是建立數據和 API 治理。在日益多樣化的生態系統中，每個協議創建的規範將繼續重新創建，並且通過多鏈生態系統的碎片化交易記錄將使個人更難以得出綜合的洞察。然後，“存儲解決方案”是能夠通過收集碎片化信息並更新每個協議的規範，以統一格式提供集成數據的實體。我們觀察到，現有市場上的存儲解決方案（如 Snowflake 和 Databricks）正在迅速發展，擁有龐大的客戶群體，通過在管道中運營各個層次進行垂直整合，並引領行業發展。

5.2 數據源市場中的機遇

當數據變得更易獲取且處理過程改進時，成功的用例开始出現。這會產生一個正循環效應，即數據源和收集工具會爆發性地出現——自 2010 年以來，由於構建數據管道的技術取得了巨大進展，每年收集的數字數據的類型和數量呈指數增長。將這一背景應用於 Web3 市場，未來可以在鏈上遞歸生成許多數據源。這也意味着區塊鏈將擴展到各種業務領域。在這一點上，我們可以預期通過 Ocean Protocol 等數據市場或 Helium 和 XNET 等 DeWi（去中心化無线）解決方案以及存儲解決方案來推進數據採集。

5.3 重要的是有意義的數據和分析

然而，最重要的是不斷詢問應准備哪些數據以提取真正需要的見解。沒有什么比爲了構建數據管道而沒有明確的假設來驗證而構建數據管道更浪費的了。現有市場通過構建數據管道實現了衆多創新，但也通過反復的無意義失敗付出了無數的代價。對於技術堆棧的發展進行建設性討論也是很好的，但行業需要時間來思考和討論更基本的問題，例如應該將哪些數據存儲在區塊空間中，或者數據應該用於何種目的。“目標”應該是通過可操作的情報和用例實現 Web3 的價值，而在這個過程中，开發多個基本組件並完成管道是實現這一目標的“手段”。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

詳解Web3原生數據管道的意義、挑战以及對行業的影響