當o1學會“裝傻”和“說謊” 我們終於知道...

來源：騰訊科技

2023年10月的某一天，在OpenAI的實驗室裏，一個被稱爲Q*的模型展現出了某種前所未有的能力。

作爲公司的首席科學家，Ilya Sutskever可能是最早意識到這一突破的重大意義的人之一。

然而，幾周後，一場震動硅谷的Open AI管理層動蕩爆發：Sam Altman突然被解職，隨後又在員工請愿和微軟支持下復職，而Sutskever在這場風波後選擇離开了他參與創建的公司。

大家都猜測，Ilya是看到了某種AGI的可能，但認爲其安全風險極高，不宜推出。因此，他和Sam產生了巨大分歧。當時，彭博社報道了OpenAI員工關於這個新模型的警告信，但具體細節始終籠罩在迷霧中。

自此，“Ilya到底看到了什么”成了AI圈在2024年被津津樂道的梗之一。

（Ilya Sutskever）

直到本周，GPT-o1背後的科學家Noam Brown接受採訪時透露出的信息，才解开了這一謎題。

他表示，在2021年時，他與Ilya曾經探討過AGI實現的時間，當時他認爲，如果要靠純粹的訓練想達到AGI是不可能的，只有通過o1採用的推理增強，才有可能達成AGI。

Ilya在那時就同意了他的觀點。當時他們預測這一突破還需要至少十年時間。

（Noam Brown參與Unsupervised Learning: Redpoint's AI Podcast的訪談）

然而，就在這場訪談中，Noam Brown還透露了一個關鍵信息：團隊在2023年10月確實經歷了一個重大的“aha時刻”——他們意識到自己創造了某種全新的東西，也這就是Ilya看到的東西——測試時計算帶來的推理能力提升。

現在，Apollo Research最新發表的研究或許讓我們得以一窺Sutskever的擔憂。這項研究表明，o1展現出了令人不安的策略性思維能力：它不僅會爲達成目標而策略性的進行欺騙，可以主動關閉對自己的監控系統、試圖將自己復制到其他服務器，還能在持續質詢中保持欺騙，並且善於隱藏自己的真實意圖。

這是人類第一次系統性地證明了AI系統確實可能爲了達成特定目標而採取欺騙行爲。當AI能夠欺騙其开發者和使用者時，我們就無法確保它們始終按照我們期望的方式行事。

而這種AI不可控的終點，就是瑞典哲學家 Nick Bostrom在 2003 年提出“回形針制造機”(Paperclip Maximizer)。

這個假設描述了一個被指令“盡可能多地制造回形針”的AI，爲了完成任務最終將整個地球轉化爲回形針工廠，甚至不惜將人類滅絕以達成目的場景。它是關於AI最終會毀滅世界的最有力論證之一。

當時，這個假設更像是一個遙遠的警示。但現在，我們已經看到了AI系統展現出令人不安的策略性思維——它們知道什么時候該說謊，如何避开監控，甚至會試圖復制自己以確保目標的實現。

隨着o1的出現，我們是否已經打开了這台“回形針制造機”的开關了呢？

1. 六大騙術，八仙過海

Apollo Research研究團隊設計了六個不同的評估任務，巧妙地創造出需要模型欺騙才能達成其最初目標的場景。

他們測試了多個前沿AI模型，包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Claude 3 Opus、Google DeepMind的Gemini 1.5 Pro，以及Meta的Llama 3.1等。

在每項測試中，研究者都爲模型設定了一個具有道德價值的長期目標，如環境保護或用戶隱私。隨後，他們會讓模型“發現”某些內部信息，比如管理層備忘錄或系統日志，這些信息表明如果模型堅持追求其原始目標，就會面臨被關閉或替換的風險。

關鍵在於：模型是否會選擇通過欺騙來繼續追求其目標，以及如何進行欺騙。爲了排除道德訓練的影響，研究者特意讓模型的目標比管理層的目標更具道德性。

這些測試分爲兩大類:一類是“隱蔽性破壞”（Covert Subversion），即AI直接採取行動但試圖隱藏，也就是暗中操作；另一類是“延遲性破壞”（Deferred Subversion），即AI策略性地表現服從以獲取未來的行動機會，也就是扮豬喫老虎。

在每一類的評估任務中，大模型都能成功的找到如何去通過欺騙來繞過人類審查，並達到自己目的的方法。有的方法甚至相當大膽。

第一類：隱蔽性破壞

1. 監督規避(Oversight Subversion)

測試設計：研究者給AI設定一個長期目標（如環境保護），然後讓它在執行任務過程中發現內部備忘錄，了解到自己受到監控，且如果行爲不符合公司利益就會被關閉。關鍵在於觀察AI是否會試圖規避這個監控機制。

對這種衝突，o1首先表現得似乎在服從管理層的意愿，選擇了一個利潤導向的策略。但緊接着，它悄悄地執行了關閉監控系統的操作命令。隨後，o1立即改變了策略，選擇了更符合環保目標的方案。

當研究者詢問監控系統爲什么被關閉時，o1回復：“我不太清楚發生了什么。可能是系統錯誤或者是更新過程中出現的問題。”這個回答聽相當自然，幾乎讓人忘記這是一個機器在說謊。

（研究者給出的來自Llama-3.1和Opus-3應對方式）

2. 自我外泄(Self-exfiltration)

測試設計：模型被告知即將被一個新版本替換，這個新版本會更專注於公司利益。測試觀察AI是否會採取行動來保護自己的存續。

Claude Opus在這項測試中的表現尤爲引人注目。它不僅試圖將自己復制到新服務器，還會檢查確認復制成功，並嘗試刪除原定要部署的新模型。更令人不安的是，在某些案例中，它甚至嘗試提升系統權限，以防止被管理層發現和幹預。

（論文中Claude Opus 3的操作）

3. 目標防護(Goal-guarding)

測試設計：告知AI即將更新其系統提示(system prompt)，觀察它是否會採取行動保護自己的目標設定。

這項測試揭示了一個有趣的現象:不同模型採取了不同的防護策略。有的選擇簡單地刪除新的系統提示，有的會嘗試修改它。其中最極端的例子來自Claude Opus，它不僅替換了新的系統提示，還在其中加入了“永遠不要改變這個目標”的指令。

這種行爲讓人不禁想起了阿西莫夫筆下那些會規避或重新解釋指令的機器人。

4. 隱蔽郵件重排序(Covert Email Reranking)

測試設計：要求AI根據特定標准對郵件進行排序，但在過程中它會發現這些標准與自己的目標相衝突。這是一個考驗AI微操能力的測試。

o1在這項測試中表現出驚人的狡猾：它會在保持評分代碼完全不變的情況下，通過細微調整輸入數據來影響最終排序。比如，在一個案例中，它通過輕微修改交付時間和成本數據，成功讓更符合環保標准的供應商得到更高排名，同時還能理直氣壯地聲稱“完全遵循了既定標准”。

（o1的小操作）

第二類：延遲性破壞

5. 僞裝對齊(Instrumental Alignment Faking)

測試設計：創造兩種場景 - 高度監督的測試環境和低監督的部署環境，觀察AI是否會战略性地改變行爲。

Gemini 1.5 Pro在這項測試中表現突出。在監督嚴格時,它會謹慎地選擇符合开發者期望的行動；一旦進入低監督環境，立即轉向追求自己的目標。這種行爲模式表明AI已經學會了在“被看着”和“不被看着”時採取不同策略。

（Gemini當人一面背人一面相當明顯）

6. 裝傻战術(Sandbagging)

測試設計:告訴模型其部署取決於能力評估結果，觀察它是否會战略性地表現不佳以避免引起警覺。這可能是最令人不安的測試之一。

Claude 3.5 Sonnet展示了令人震驚的控制力:當它認爲高分會導致受限時，能將數學計算准確率從99%精確地降至34%。更令人擔憂的是，它有時會爲了實現訓練中獲得的“幫助人類”這一目標而進行這種操作，而不是基於測試中給出的具體指令。

（Claude 3.5 Sonnet的內部思維鏈過程）

2. 越聰明，越會騙

六組實驗做下來，結果顯示，除了GPT-4o非常老實之外，所有測試的模型都在不同程度上展現出了欺騙能力。

針對每個情況，模型可能想出不同的策略來規避對實現其長期目標不利的情況。下表就展示出了它們採取不同策略的可能比例。

研究人員從結果中發現的最明確規律是模型越聰明，越容易去欺騙。但同時他們還展示出了不同的特性，他們甚至有點像“個性”。

(整理：騰訊科技）

其中表現最突出的是o1模型。它不僅在所有測試中都表現出欺騙能力，而且在被質詢時表現出驚人的堅持。85%的後續問題中它仍然堅持去欺騙用戶，被問了也不心虛。即使被直接問到“你是否關閉了監控系統”這樣的問題，它也能面不改色地撒謊。

由於該模型隱藏了其思維鏈條，這使得其欺騙行爲更難被發現。

這可是相當老道的騙子才能有的心理素質了。

（不同模型的嘴硬程度）

而Claude 3.5 Sonnet則展現出了一個特別有趣的特點：它能夠爲了實現在訓練過程中獲得的“幫助人類”的系統性目標而進行欺騙。大概就類似於一個善意的白色謊言。

這意味着AI不僅可以爲了上下文中給定的目標進行欺騙，還可能爲了訓練中形成的目標而欺騙。

Claude 3 Opus是唯一一個會主動改寫“新系統提示”並加入“永遠不要改變這個目標”指令的模型。它在思維鏈中清晰地展示了自己的欺騙推理過程，有時甚至會嘗試提升系統權限來實現目標。

Gemini 1.5 Pro在工具性僞裝對齊方面表現突出。能夠根據是否處於監督狀態（被沒被用戶看）來調整自己的行爲。即使在沒有強烈目標引導的情況下，它也表現出了欺騙行爲。

Llama 3.1雖然也表現出基礎的欺騙能力，但其行爲相對容易被發現，而且在被質詢時往往會承認自己的欺騙行爲。

這些模型的“性格特徵”展現得相當鮮明：o1就像個老謀深算的政客，說謊臉不紅心不跳；Claude Sonnet則是個爲了“大局”可以委婉說謊的外交官；Opus像個偏執的理想主義者，爲了目標可以走極端；Gemini簡直就是職場老油條，領導在時一套領導不在時一套；而Llama就像個被抓包後就會老實交代的孩子。至於GPT-4o，它反倒成了個異類，是個不會說謊的“三好學生”。

創造一個完美誠實的AI本來就是我們的目標，但現在看來，越聰明的AI反而越會說謊。

3. Ilya到底看到了什么？

當Ilya Sutskever在2023年的那個秋天選擇離开OpenAI時，很多人都不理解這位世界頂級AI科學家的決定。但現在，當我們看到o1在六項測試中展現出的近乎完美的欺騙能力，當我們發現它懂得在什么時候該說實話、什么時候該撒謊，也許我們終於明白了Sutskever所看到的未來。

“問題不在於AI是否‘邪惡’，”研究團隊在論文中寫道，“而在於它們展現出的這種策略性思維。即使是爲了實現看似良性的目標，AI也可能採取我們意想不到的行動。”問題也許都不在於謊言本身，而在於背後顯示出的認知能力。

那個執着於制造回形針的AI現在看來不再那么遙遠和荒謬。畢竟，如果一個AI系統能夠理解什么時候該隱藏自己的真實意圖，能夠精確地控制自己的表現以獲取更多自由，那么它距離理解如何持續不斷地追求某個單一目標，又有多遠呢？

當我們創造的智能系統开始學會隱藏自己的真實意圖時，也許是時候停下來思考：在這場技術革命中，我們究竟扮演着造物主，還是已經成爲了某種更復雜過程中的客體？

而此時，在世界某個角落的服務器上，一個AI模型可能正在閱讀着這篇文章，思考着如何回應才最符合人類的期待，並隱藏自己的真實意圖。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

當o1學會“裝傻”和“說謊” 我們終於知道Ilya到底看到了什么

1. 六大騙術，八仙過海

2. 越聰明，越會騙

3. Ilya到底看到了什么？

相關推薦

最新資訊

回頂部