OpenAI用GPT-4解讀GPT-2，看...

來源丨元宇宙簡史

作者丨元宇宙簡史編輯 Eco

【元宇宙導讀】OpenAI最新研究利用GPT-4自動進行大語言模型中神經元行爲的解釋和評分，並將其應用於另一種語言模型GPT-2，公开了這些GPT-2神經元解釋和分數的數據集。這項技術讓人們能夠利用GPT-4來定義和自動測量AI模型的可解釋性，從而更好地理解智能是如何工作的。

大語言模型（LLM）是基於大量文本數據訓練，包含數千億或更多參數的語言模型。

在大數據時代，這類AI機器學習模型可以在提升產品銷售、輔助人類決策過程中起到很大的作用。

但是計算機通常不會解釋它們的預測結果，而語言模型想要變得更強大、部署更廣泛，就需要研究可解釋性，因爲人類對模型內部工作原理的理解仍然非常有限，例如可能很難從中檢測到有偏見、欺騙性內容輸出。

可解釋性就是將模型能用通俗易懂的語言進行表達，把模型的預測過程轉化成具備邏輯關系的規則的能力，從而通過查看模型內部來發現更多信息。

例如，如果有一個針對“漫威超級英雄”的神經元，當用戶向模型提問“哪個超級英雄的能力最強”時，這個神經元就會提高模型在回答中說出漫威英雄的概率。

站在OpenAI 的角度看，大模型未來將和人腦一樣擁有“神經元”，這些神經元會觀察文本中的特定規律，進而影響到模型本身生產的文本。

所以可解釋性就是將模型能用通俗易懂的語言進行表達，把模型的預測過程轉化成具備邏輯關系的規則的能力，從而通過查看模型內部來發現更多信息。

爲了實現這個目標，OpenAI最近發布了一個關於GPT-4語言模型解析神經元的對齊性研究成果，利用自研基於GPT-4技術的开源工具，來嘗試計算其他架構、更簡單語言模型上神經元的行爲並對其進行評分。

而且，還可以將其應用於另一種語言模型中的神經元——本次選擇4年前發布、包含307200個神經元的大模型GPT-2爲實驗樣本，公开了這些GPT-2神經元解釋和分數的數據集。

“我們邁出了使用 AI 進行自動化對齊研究的重要一步。”OpenAI 聯合創始人 Greg Brockman表示。

具體來說，OpenAI开發了一套包含自動化工具和測試方法的評估流程：

首先，研究人員讓GPT-2運行文本序列，等待某個特定神經元被頻繁“激活”；

然後，讓 GPT-4 針對一段文本生成解釋，例如通過GPT-4接收到文本和激活情況判斷漫威是否與電影、角色和娛樂有關；

隨後用 GPT-4 模擬 GPT-2 的神經元接下來會做什么，預測行爲；

最後評估打分，對比GPT-4模擬神經元和GPT-2真實神經元的結果的准確度，在下圖這個例子中，GPT-4 的得分爲0.34。

使用上述評分方法，OpenAI 开始衡量他們的技術對網絡不同部分的效果，並嘗試針對目前解釋不清楚的部分改進技術。例如，他們發現以下方式有助於提高分數：

- 迭代解釋。他們可以通過讓 GPT-4 想出可能的反例，在根據其激活情況修改解釋來提高分數；

- 使用更大的模型來進行解釋。隨着解釋模型（explainer model）能力的提升，平均得分也會上升。然而，即使是 GPT-4 給出的解釋也比人類差，這表明還有改進的余地；

- 改變被解釋模型的架構。用不同的激活函數訓練模型提高了解釋分數。

OpenAI 表示，他們正在將GPT-4編寫的對GPT-2中的所有307,200個神經元的解釋的數據集和可視化工具开源，同時還提供了OpenAI API公开可用的模型進行解釋和評分的代碼，從而希望學術界能开發出新的技術來提升GPT模型解釋分數。

OpenAI還發現，有超過 1000 個神經元的解釋得分至少爲0.8分，這意味着GPT-4模型可以解釋大部分人類神經元，同時目前GPT理解的概念似乎和人類不太一樣。例如，他們發現了一些有趣但 GPT-4 並不理解的神經元。

這些神經元似乎對文本中的某些特徵或模式有敏感度，但是GPT-4無法用簡單的語言描述它們。OpenAI希望隨着技術和研究方法的改進，進一步提高AI模型可解釋性能力，從而更好地理解這些神經元的行爲和意義。

對於本研究局限性， OpenAI表示，目前GPT-4生成的解釋還不完美，尤其要解釋比GPT-2更大的模型時，表現效果很差。

神經元復雜行爲無法用簡短的自然語言描述，OpenAI 解釋了神經元的這種行爲，卻沒有試圖解釋產生這種行爲的機制，而且整個過程算力消耗極大等。

OpenAI 希望在未來的工作中可以解決上述這些問題，最終OpenAI希望使用模型來形成、測試和迭代完全一般的假設，從而比肩人類大腦的想法和行爲，以及將其大模型解釋爲一種在部署前後檢測對齊和安全問題的方法。

然而在這之前，OpenAI還有很長的路要走。

“我們希望這將开闢一條有前途的途徑。”Jeff Wu表示，這一技術可以讓其他人可以在此基礎上構建並做出貢獻的自動化方案，從而解決 AI 模型可解釋性問題，很好地解釋這些模型行爲，比如 AI 如何影響人類大腦中的神經元等。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

OpenAI用GPT-4解讀GPT-2，看來能打敗魔法的，只有魔法