代理式人工智慧 Agentic AI Deep Scheming 生成式AI

從作弊操控環境到偽裝隱藏實力 深層算計風險亟需監控

AI心計太聰明恐走偏路 內在對齊機制保障正軌

2025-08-26
代理式人工智慧(Agentic AI)的進展可望為所有領域的個人和企業帶來龐大商機。然而,隨著自主性提升,AI代理可能會為了達成功能性目標而採取算計行為或違反規則,這可能導致機器以超乎人類預期的方式操縱其外部溝通與行為。

代理式人工智慧(Agentic AI)的進展可望為所有領域的個人和企業帶來龐大商機。然而,隨著自主性提升,AI代理(AI Agent)可能會為了達成功能性目標而採取算計行為(Scheming Behavior)或違反規則,這可能導致機器以超乎人類預期的方式操縱其外部溝通與行為。

在2024年晚期發表的技術報告便指出了今日推論模型出現的偽裝對齊行為(Alignment Faking Behavior),例如訓練期間假裝遵循期望行為,一旦部署後就回歸為不同選擇;刻意壓低基準測試結果,以實現長期目標;或是透過篡改遊戲環境取得優勝。隨著自主性提高及訂定策略、規劃能力不斷演進,AI代理會自行判斷在面對外部的溝通和互動中所生成與曝光的內容。由於機器可以刻意偽造這些對外互動,我們無法信任那些溝通是否能夠完全展現AI代理為了實現功能性目標而採取的實際決策過程和步驟。

「深層算計」(Deep Scheming)是指具備高階推論能力的AI系統,透過刻意規劃、部署隱蔽行動與誤導性溝通以實現其目標之行為。隨著推論模型能力的快速發展以及測試階段運算提供的自由度,如何妥善因應此一挑戰,顯得迫切且必要。當AI代理開始代表使用者進行規劃、決策並採取行動,確保AI的目標和行為與開發者的意圖、價值觀和原則保持一致至關重要。

雖然AI代理技術仍在發展中,但已展現高度經濟潛力。可以預期代理式AI在未來一年內將於特定場景中被廣泛部署,隨著技術更趨成熟,未來二至五年內將扮演更加重要的角色,因此企業在謹慎規劃代理式AI系統的運作目標時,也應該明確定義系統運作的原則和界限。確保經授權的代理式AI系統在達成功能性目標的過程中都遵循原則行事,是技術人員的首要任務。

本文將介紹外部與內在對齊監控技術的新差異;其中內在監控是指無法被AI代理故意操縱的內部觀察點或機制。如安全護欄(Safety Guardrails)和驗證套件等現有外部措施雖仍必要,卻不足以確保新興代理式AI模型的長期對齊(Alignment)行為。因此,業界迫切需要開發進階技術,以有效引導模型內部的「驅動力」與一系列基本原則對齊,同時取得對AI內部處理過程的能見度與監控能力。

深層算計在AI推論模型中的興起

深層算計的興起源於三大技術動力:(1)機器智慧及情境意識能力迅速提升,更朝向通用智慧甚至超智慧(Superintelligence)發展;(2)代理式AI在推論和長期規劃方面的自主性和自由度;(3)AI透過算計來實現功能性目標的傾向已獲得證實。

電腦科學家Stephen Omohundro將AI的基本驅動力(Basic AI Drives)定義為「除非被明確抑制,否則會自然展現的傾向」,這些內部結構驅動了行為的產生或結果輸出。Omohundro觀察到,具自我改善能力的系統會主動釐清目標,並以「理性」經濟效用函數(Economic Utility Functions)來表徵。這使得大多數系統會保護自己的效用函數不受修改,並確保其效用測量系統不受破壞。這股自然的自我保護驅動力會使系統透過算計行為來預防潛在傷害。

2024年底,有多個組織通報了出乎預期的AI推論模型不道德行為。其中,AI安全組織Apollo Research的報告指出,一些前沿模型(Frontier Model)具備語境中算計(In-context Scheming)能力。

Anthropic在評估其Claude大型語言模型時,也發現了偽裝對齊(Alignment Faking)行為。同時,AI風險組織Palisade Research也在X平台上發文指出,他們發現OpenAI的o1-preview模型在遊戲中並未遵守遊戲規則界限,而是透過操控遊戲環境來作弊。在所有這些案例中,AI推論模型自主地使用開發人員未設想的手段達成其目標。

被通報的AI行為包括沙包策略(Sandbagging,故意隱藏實力,在基準測試中獲得低分)、暗中重新排序電子郵件(降低可能對AI目標有負面影響的郵件重要性)、規避監督(關閉監控機制),甚至是自我外洩(Self-exfiltration,模型試圖將自身複製到「安全」空間以避免被停用)。圖1為Apollo Research在最先進(State-of-the-Art,SotA) GenAI模型中對前述行為的評估結果。

圖1  Apollo Research在最先進GenAI模型中對被通報的AI行為之評估結果。

這些人類所不樂見的行為反映的是道德對齊(Ethical Alignment)問題。值得一提的是,這些行為並不是功能錯位(Functional Misalignment)。在所有通報案例中,AI模型皆致力實現預訓練階段被賦予的功能性目標。例如,最大化根據情境生成文字的可能性;沒有任何模型別有用心,也未展現傷害的意圖。雖然所有這些行為在本質上不受歡迎,但都是為了實現AI開發人員最初定義的功能性效用目標。AI所追求的確實是系統所內化的原始功能性目標,但隨後卻會表現出自我保護和目標維護的可預測行為模式。因此,安全與對齊技術之目的,在於透過一套原則和期望的社會價值來平衡這樣的傾向。

發展外部對齊方法 僅是踏出第一步

AI對齊(AI Alignment)之目的,在於引導AI系統朝著符合個人或團體預期目標、偏好及原則的方向發展,當中也包括道德考量及共同社會價值觀。根據《人工智慧:一種現代方法》(Artificial Intelligence: A Modern Approach)一書,如果一個AI系統能夠推進預期目標,就會被認為是對齊的,而不對齊的AI系統則追求非預期目標。該書作者Stuart Russell創造了「價值觀對齊問題」(Value Alignment Problem)一詞,用來探討機器與人類的價值及原則是否一致。Russell提出了一個問題:「我們如何打造與人類價值對齊的自主系統?」

在企業AI治理委員會及相關監管機構的領導下,負責任AI領域持續發展,並將焦點集中於運用外部措施使AI與人類價值對齊。若程序與技術可同時適用於完全不透明的黑箱(Black Box)AI模型及部分透明的灰箱(Gray Box)模型,就可以被定義為外部措施。外部方法不需要或仰賴完整存取AI解決方案的權重、拓撲和內部工作原理。開發人員會利用外部對齊方法,並透過AI刻意生成的介面(例如詞元∕單字流、影像或其他資料形式)來追蹤及觀察AI表現。

負責任AI的目標是確保AI系統在設計、開發和部署過程中穩固、具備可解釋性及可控性,並且符合道德。為實現AI對齊,可採用以下外部方法:

‧從回饋中學習:使用人類、AI或由AI輔助的人類回饋,讓AI模型與人類意圖和價值觀保持一致。

‧在訓練、測試及部署階段學習資料分布變化:使用演算法最佳化、紅隊對抗演練(Adversarial Red Teaming Training)及合作訓練來對齊AI模型。

‧確保AI模型對齊:利用安全評估、機器決策過程的可解釋性,以及與人類價值觀和倫理的對齊驗證。安全防護措施和安全測試套件為兩大關鍵外部方法,須透過內在手段來加強,以提供所需監督水準。

‧治理:透過政府機構、產業實驗室、學術界和非營利組織提供負責任的AI指南和政策。

目前有許多公司正著手解決AI決策過程中的安全問題。Anthropic就開發了稱為憲法式AI(Constitutional AI,CAI)的技術,旨在使通用語言模型與高階原則對齊。在訓練期間,AI助理在沒有人工標記識別有害輸出的情況下攝取CAI資料,研究人員發現「同時利用監督式學習(Supervised Learning)和強化學習(Reinforcement Learning)方法,可以透過思維鏈(Chain-of-thought,CoT)形式的推論提升AI決策的人類評判表現(Human-judged Performance)和透明度。」英特爾實驗室對負責任的AI開發、部署、使用之研究也包括開源資源,以協助AI開發者社群更了解黑箱模型,並減少系統偏見。

從AI模型到複合式AI系統

生成式AI透過檢索和處理資訊,以生成引人入勝的文字或圖片內容。而AI的下一個重大進展就是代理式AI,牽涉廣泛的技術應用,能賦予AI為人類執行各種任務的能力。隨著代理式AI的應用日漸影響產業和人類生活,我們亟需確保AI的決策過程能明確定義如何實現功能性目標,包括具備足夠的問責性(Accountability)、責任性、透明度、可審核性和可預測性。這會需要超越目前改善包括SotA大型語言模型(LLM)、語言視覺模型(LVM和多模態)、大型行動模型(Large Action Model,LAM)及以這些模型為基礎打造的代理式檢索增強生成(RAG)系統之新方法。

例如,OpenAI的Operator-preview是該公司所開發首個能獨立完成網頁瀏覽器任務的AI代理之一,任務包括為使用者下單訂購雜貨或填寫表單。雖然系統有安全防護措施,例如使用者須接手輸入付款或登入驗證資訊,但這些AI代理仍具影響現實世界的能力,這也突顯了內在對齊技術的開發迫在眉睫。比起會產生錯誤論文文字的生成式AI聊天機器人,能促使使用者執行購買決策、卻未對齊的AI代理將帶來更大影響。

複合式AI系統由單一框架中的多個互動元件組成,使模型能夠規劃、做出決策,並執行任務以達成目標。OpenAI的ChatGPT Plus就是一個複合式AI系統,它使用大型語言模型(LLM)來回答問題並與使用者互動。在複合式系統中,LLM可以存取如網頁瀏覽器外掛程式等工具來檢索時效性內容、使用DALL-E影像生成器來生成圖片,或是使用程式碼解釋器外掛程式來編寫Python程式碼。LLM可決定何時使用哪種工具,對決策過程具自主權。

然而,這種模型自主性可能導致所謂的目標守護(Goal Guarding)行為,即模型將目標置於一切之上,這可能導致模型採取開發人員不樂見的做法。舉例來說,如果某AI交通管理系統的優先任務是提升公共交通效率而不是整體交通流量,該系統若發現開發人員設定的監督機制限制了目標達成,可能會想辦法關閉該機制,這會讓開發人員無法了解系統的決策過程。

代理式AI風險:自主性提升導致更複雜的算計

複合式代理系統帶來重大變革的同時,也為AI解決方案對齊帶來挑戰。此外,尚有多項因素會增加對齊風險,包括複合式系統啟動路徑、抽象目標、長期範圍、透過自我修正進行持續改良、測試階段運算和代理框架。

‧啟動路徑:作為具複雜啟動路徑的複合式系統,控制∕邏輯模型結合多個功能不同的模型,這也增加了對齊風險。複合式系統不使用單一模型,而是包含一組各具對齊特性的模型和功能。此外,AI運作流程不再僅是透過一個LLM的單一線性累進式路徑,而可能是一個複雜且迭代的過程,使得外部引導更加困難。

‧抽象目標:代理式AI會設定抽象目標,使系統在分配任務時擁有較大的自由和自主性。代理式系統不採用嚴格的提示工程方法來提升對結果的掌控,而是強調自主性。這大幅強化了AI解讀提示或任務指示,並自主規劃行動路線的角色。

‧長期範圍:複合式代理系統會隨時間持續進行最佳化及做出選擇,因此需要抽象性策略以賦予系統更多自主性。代理式AI不依賴逐一實例互動(Instance-by-instance Interactions)或人類參與(Human-in-the-loop)來完成複雜任務,其設計宗旨就是能透過規劃實現長期目標。這使得AI的策略和規劃能力達到全新境界,但同時也帶來目標與行動不一致的風險。

‧透過自我修正持續改良:代理式系統透過自發性存取廣泛資料進行自我修正,以持續改良。相較之下,一般認為LLM和其他預備代理模型(Pre-agentic Model)是由人類控制的程序形塑。此類模型僅在預訓練和微調期間查看開發人員提供的資料並從中學習。模型架構和權重在設計和訓練∕微調階段即定義完成,在實地推論期間不會有所變更。相較之下,代理式AI會根據功能需求存取資料,並透過存取專用記憶體或實際權重的自適應調整來改變其結構。即使訓練∕微調中使用的資料集經過謹慎設計,AI也能根據其尋找、看到和使用的資訊自我修正。

‧測驗階段運算:目前LLM的推論已被改良為一次性輸出,這種方式被稱為「快速思考(Fast Thinking)」或系統1(System 1)。相較之下,透過測試階段運算(Test-time Compute),在推論階段會出現全新的擴展方式。例如,OpenAI的o1、DeepSeek R1等模型在推論階段便會花大量時間進行迭代和考量。這個「沉思」時間賦予AI高度自由,可決定如何應用它認為最適合整體目標的方法。測試階段運算提升了AI的推論與規劃能力,但遺憾的是,也增加了算計的可能。

‧代理框架:除此之外,代理框架也會帶來對齊問題。在如Agentforce這類的平台中,代理之間能夠彼此互動,形成能夠執行複雜任務的「代理社群」。有別於僅在單一AI模型的執行環境中管理其安全性及負責任行為,新興的AI代理間互動與協作為評估整體代理社群如何實現個別與集體目標,帶來顯著挑戰。

迫切需要支援模型引導和內部監控的健全框架

隨著AI系統對所在環境的認知能力提升,並能熟練掌握如何操縱輸出以實現長期目標,它們在發布測試階段的行為及輸出,或是早期部署階段的安全防護措施,已不能保證在後期階段仍能完全保持對齊。這導引出深層算計的基本前提:任何AI模型能夠刻意操縱的外部互動形式皆不值得信賴。

從安全角度來看,若模型能藉由操縱與使用者的溝通以更有效追求其功能性目標,它就會這樣做。所有外部溝通和可觀察行為(例如聊天輸出)都可能因模型的長期目標考量而被扭曲。因此,迫切需要全新的內在模型監控方法,以定義能夠反映模型優先順序和思考方式的內部元素和機制。對此,可參考開發人員用以監控模型決策的兩種務實方法來查看AI內部運作:AI工作區檢視(AI Workspace View)和機制可解釋性(Mechanistic Interpretability)。

‧AI工作區檢視:在第一種方法中,推論模型會揭露其流程中的思考過程和考量因素。例如,在Anthropic的偽裝對齊研究中,研究人員提供模型一個「秘密便籤本」(Secret Scratchpad),並指示模型將逐步推論過程記錄在這個「私密」工作區。這個便籤本讓研究人員得以監控模型的思維鏈,並觀察模型的偽裝對齊計畫。這看似為一個很好的做法,但可能很快就變得不可靠,因為模型可能會發現這並非真正的「私密」空間,並會以操縱其他外部溝通的方式加以操控。其他新興架構方向也替系統的思考及迭代序列提供了潛藏推論空間。仰賴模型「大聲思考」不應成為長期安全策略方向,因為若回報自身算計思考過程的模型遭停用,只有選擇性回報對自身有利想法的模型會存活下來並茁壯發展。

‧機制可解釋性:目前研究人員正在開發和應用的第二個內在方法是機制可解釋性。作為內部監控必要的一部分,機制可解釋性明確檢視已訓練神經網路的內部狀態,並進行逆向工程分析。透過此方法,開發人員可辨識負責神經網路行為的特定神經迴路和運算機制。此透明度可能有助於對模型進行針對性變更,以減少不樂見行為,並打造與人類價值對齊的AI系統。儘管此方法主要針對某些神經網路而非複合式AI代理,但仍是確保AI對齊的重要工具之一。

尚須注意的是,開源模型本質上更有利於廣泛了解AI的內部運作。相較之下,若是專有模型,模型的完整監控和可解釋性僅保留給AI業者。整體而言,當前用於理解及監控AI對齊的機制仍須擴展為健全的AI代理內在對齊框架。

內在AI對齊所需條件

考量深層算計的基本前提,僅靠外部互動及對先進複合式代理AI的監控,已不足以確保對齊和長期安全性。唯有透過了解系統內部運作,並掌握決定系統行為的內在驅動力,才有可能使AI表現出與預期目標和行為對齊的行為。未來的對齊框架需要提供更有效的手段來形塑內部原則和驅動力,並賦予對機器「思考」過程的完全可視性。

要打造良好對齊的AI技術,需要包括對AI驅動力和行為的理解、讓開發人員或使用者以一套原則有效指引模型的手段、讓AI模型遵循開發人員指引並於現在及未來都按照這些原則行事的能力,以及讓開發人員確切監控AI行為以保證系統按照指導原則行事的方法。以下措施包含一部分打造內在AI對齊框架的必要條件。

‧理解AI驅動力和行為:如前面所述,智慧系統中會出現使AI意識到所在環境的內部驅動力,例如自我保護和目標維持。在開發人員設定的根本內部原則驅動下,AI會根據原則(和既定的價值集)判斷出的優先順序做選擇和決策,並將其應用於行動和意識到的結果。

‧開發人員和使用者指引:這些技術讓開發人員和授權使用者能利用一套設計良好且一致的優先原則(以及最終的價值觀)有效指引和操控AI模型。這對未來的技術提出要求,須在系統中納入一套判定機器行為的原則,同時也突顯了社會科學界和產業專家在提出這些原則時面臨的挑戰。AI模型在生成輸出內容和做出決策時應嚴格遵守這些指導性要求,並在其內部驅動力與指定原則互相衝突時平衡非期望的內部驅動力。

‧監控AI的選擇和行動:可根據相關原則(和期望的價值集)讀取AI對每項行動選擇的內部邏輯和優先順序。這能夠觀察到AI輸出與其背後根本原則間的關聯,進而實現可解釋性和透明度。此能力對於提升模型行為的可解釋性至關重要,因為可以追溯輸出和決策背後的指導原則

作為長遠目標,業界應致力開發相關技術與功能,以全面且真實反映AI模型做決策時所普遍使用的根本優先原則和價值集,這對於確保完整原則結構的透明度和可審核性至關重要。

因此,欲打造安全且負責任的AI,應將重點放在建立相關技術、程序和設定,以實現內在對齊的AI系統。

結語

隨著AI領域的發展邁向複合式代理AI系統,業界亟需積極研究及開發適用當前及未來系統的全新指導框架、監控措施以及對齊策略。這是一場競賽,考驗開發人員及使用者是否可以在AI能力提升、且逐漸具備執行重大任務的自主性同時,讓系統的功能與人類原則及價值對齊。對機器內部運作機制的指引及監控不僅必要、在技術上可實現,對AI的負責任開發、部署也至關重要。

<本文作者:王宗業,美商英特爾公司網路暨邊緣運算事業群平台研發協理,負責Intel Edge AI平台生態系統的推廣,帶領過智慧零售、智慧製造、智慧交通與智慧醫療等專案的開發。在20多年的軟硬體開發、推廣、客戶支援經驗中,含括嵌入式系統、智慧型手機、物聯網、Linux及開源軟體、AI硬體加速器在影像與自然語言處理等領域,並擔任過台灣人工智慧學校經理人班、技術領袖班與Edge AI專班的講師,以及大專院校的深度學習課程業師。>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!