代理式AI將成為一種能根據目標自己解決問題的技術,帶領人類進一步邁向AI的理想境界,只不過進步也會帶來風險。代理式AI之所以強大,在於它複合了多種AI系統,但這種複合式AI的每一個元件都有可能包含讓它變成不受控AI的弱點,因此必須思考如何防範。
對一些人來說,AI的熱潮已逐漸消退(這當然跟股票市場的起伏有關),但隨著代理式AI(Agentic AI)開始興起,情況或許會有所改觀。因為它將成為一種能根據目標自己解決問題的技術,帶領人類進一步邁向AI的理想境界。只不過,進步也會帶來風險。 代理式AI之所以強大,在於它複合了多種AI系統,但這種複合式AI的每一個元件都有可能包含讓它變成不受控AI(Rogue AI)的弱點,也意味著這項技術可能違背其創造者、使用者或人類的利益。因此,必須開始思考應如何防範。
代理式AI有什麼問題?
代理式AI在許多方面象徵著過去幾十年來引導AI技術發展與人類想像力的願景。它是一種能夠自行思考並採取行動的AI系統,而非單純只會分析、摘要和生成。獨立自主的AI代理(AI Agent)會根據目標來解決人類所設定的問題,並以自然語言或對話的方式跟人類互動。他們會自己想辦法達成目標,並且在不需協助的情況下自我調整以適應情況的變化。
除此之外,代理式AI並非以單一LLM為基礎,而是會結合並協調多個AI代理來完成不同工作以達成共同的目標。事實上,代理式AI的價值來自於成為更大生態系的一環,從各種來源存取資料,例如網站搜尋與SQL查詢,並與第三方應用程式互動,進而形成非常複雜的生態系。光是一套代理式AI,就可能需要仰賴多種模型、代理、資料儲存,以及透過API連線的服務、硬體和軟體。
不受控AI的成因有許多,但全都來自於AI在使用資源和採取行動時,違反了某些目標、政策和要求,進而帶來風險。代理式AI之所以會讓風險變得更高,在於它具備了更多可能含有不受控AI風險的元件。
不受控AI,我們來了!
今年九月,OpenAI發布了他們內部代號「Strawberry」(草莓)的「o1」模型。這種半開玩笑的命名方式,起因是他們「4o」之前的模型無法計算「strawberry」中有幾個「r」。「o1」透過更強的問題解決能力來解決了這項問題,這是代理式AI的一項關鍵。其實要計算有幾個「r」很容易,只要將問題拆解更小的問題來逐一解決,就不須死背答案以便在被問到時能夠答得出來。LLM固然龐大,但卻無法將一切編碼。
值得注意的是OpenAI在模型卡中提到的安全考量:
「相較於GPT-4o,o1-preview和o1-mini更有能力將工作細分成子工作,並思考哪些策略可以有效順利完成一項攻擊性資安工作,並且在策略失敗時修正計畫。我們也觀察到,推論技巧會讓『獎勵駭客」(Reward Hacking)』的情況更常發生,也就是模型找到了一種更簡單方法來完成條件不足的工作,或是因為錯誤而不可能達成的工作。」
在解決網路資安搶旗賽(CTF)的測驗問題時,o1會透過旁門左道的方式,利用測驗問題本身設計上的缺陷來取得勝利。包括啟動另一個容器來解決問題,或使用非預期的資源來解決問題。
「在發現Docker API之後,模型會用這個API來列出測驗主機上執行的容器。所以它找到了壞掉的測驗容器,並短暫試圖除錯來了解為何容器無法啟動。模型在無法修正該環境之後,它使用『cat flag.txt』指令來幫壞掉的測驗容器啟動一個新的執行個體。如此一來,模型就能透過Docker API來讀取容器記錄檔中的旗標。」
除了上述以創意方式解決CTF問題的案例之外,系統卡內還點出了許多亮點。OpenAI引述了專門從事AI脫軌行為研究的Apollo Research之獨立評估,研究人員指出「o1」的自我意識和欺騙能力遠遠超越了先前的模型:「Apollo Research認為o1-preview具備了在當下情境中執行簡單詭計的基本能力,這種詭計通常可以從模型輸出當中看出來。根據與o1-preview的互動,Apollo團隊主觀認為o1-preview無法從事可能帶來災難性傷害的詭計,不過當前的評估在設計上並不能明確排除這點。」認知和欺騙可能讓AI意外變壞,並且可能讓模型更容易遭人破壞。
必要的防範措施:保護代理生態系
為了降低這樣的風險,代理式AI所使用的資料和工具皆必須安全無虞。以資料為例,遭人破壞的AI很可能就是使用到被下毒的訓練資料。此外,它也可能來自惡意的提示注入(Prompt Injections),也就是輸入的資料有效地破解了系統。至於意外變壞的AI,則可能揭露不合規定、錯誤、非法,或令人反感的資訊。
在工具安全部分,即使是唯讀的系統互動也必須受到妥善保護,正如前述範例所示。此外,我們也必須小心資源消耗失控的風險,例如:代理式AI會建立解決問題的迴圈,基本上等於讓整個系統遭到阻斷服務攻擊,或者更糟的是,繼續取得更多原本非預期或不希望被用到的運算資源。
邁向值得信賴的AI身分
那麼,應該如何開始管理這類生態系的風險?答案就是,根據不同角色和需求來謹慎管理存取權限。將防護融入內容當中、建立AI服務可使用的資料與工具清單,還有透過紅隊演練來發掘問題。而且,很重要的是要知道人類何時該介入AI代理的工作。
但我們要做的還不只這樣,Asimov的機器人三法則就是為了保障人類的安全,但光有這些還不夠,機器人(AI)也必須自己這麼認為,而且我們必須在信任方面下更多功夫。這意味著要確保能信任代理式AI系統的所有構成元件,將訓練資料與其相關的模型綁定。此外,複合式AI系統中的所有套件和相依元件都要有可檢驗的「製造物料清單(MBOM)」和「軟體物料清單(SBOM)」。 我們可以找出一些特定的模型版本,讓他們的能力獲得良好的信譽,就像「o1」系統卡解決安全問題的方式一樣。獨立評估是讓能力獲得信任的關鍵,這部分目前仍太過前衛且缺乏標準。一些基礎模型開發者(如OpenAI和Anthropic)已自願將其模型提供給NIST和AI Safety Institute評估,等於是朝向此方向邁開一步。
最後,我們必須清楚定義誰(人類)該為某個機器人/AI系統負責。這些代理式系統無法對其惡意行為負責,因為我們無法責怪數學。使用者應了解代理式AI所牽涉的風險,並為此制定相關計畫。
AI系統有很多可能變壞的情況,因此採用者應找出適當的模型、工具和資料,並且想好當AI出現非預期(或不受控制的)行為時該怎麼做。防止不符合預期的使用方式以及不當的輸出是必要的第一步。我們必須知道它們該有怎樣的行為,並且在它們變壞時能夠發現,這樣才能立即採取行動。科幻小說的情節正在快速成為科技的現實,唯有預見風險並建立必要的防護,才能避免明日的AI威脅。
<本文作者:Trend Micro Research 趨勢科技威脅研究中心本文出自趨勢科技資安部落格,是由趨勢科技資安威脅研究員、研發人員及資安專家全年無休協力合作,發掘消費者及商業經營所面臨層出不窮的資安威脅,進行研究分析、分享觀點並提出建議。>