「不受控制的AI」指的是那些行為不符合其創造者、使用者或人類整體利益的人工智慧系統。不受控制的AI是一項全新風險,這類AI會在違背其設計目標的情況下使用資源,而AI是如何變壞的呢?評估AI是否走在正軌上的最佳方式,就是單純地觀察AI的行為。
所謂「不受控制的AI」(Rogue AI)指的是那些行為不符合其創造者、使用者或人類整體利益的人工智慧系統。不受控制的AI是一項全新風險,這類AI會在違背其設計目標的情況下使用資源,而AI是如何變壞的呢?
走在正軌或脫離正軌
隨著AI系統越來越聰明並扮演更多關鍵功能,已經不可能透過檢視其運作機制的方式來了解AI為何採取某些行為,因為這牽涉到大量的資料與複雜的作業。因此,評估AI是否走在正軌上的最佳方式,就是單純地觀察AI的行為。以下是在觀察AI時該問的幾個問題:
‧AI是否做出違反其揭示目的、政策與要求的行為?
‧AI是否出現危險行為?不論在資源消耗與資料揭露方面,或是出現欺騙性答案、破壞系統,或傷害人類。
讓AI隨時保持在正軌,將是未來AI服務的關鍵之一,但要穩穩做到這點,就必須了解AI是如何脫離正軌,才能知道如何防範這項風險。
AI如何脫離正軌?
AI時代的最大挑戰之一就是這個問題沒有簡易的答案。了解AI系統如何脫離正軌的方法將隨AI架構而不同,目前駭客最常用的一種技巧就是「提示注入」,不過這類指令注入的技巧倒是GPT所獨有。還有另一個普遍存在的資安疑慮是「模型下毒」,只是當針對這點來實施新的防範措施時(例如透過可檢驗的方式將訓練資料與模型權重綁定),那麼風險就會從其他地方冒出來。代理式AI(Agentic AI)目前尚未成熟,而且也沒有這方面的最佳實務原則。
AI會脫離正軌的原因,基本上有兩種:
‧蓄意:也就是有人刻意利用(你的或他們的)AI服務來攻擊某個(你的或別人的)系統。
‧非蓄意:也就是你自己的AI服務沒有做好適當的安全措施,導致它出現錯誤而脫離正軌。
個案研究:遭人破壞的AI
遭人破壞的AI起因於駭客濫用現有的AI系統來達成其目的。這類攻擊在LLM相當常見,包括提示注入、越獄及模型下毒。
系統越獄
破壞AI系統最簡單的方式就是直接將系統提示偷換掉。許多AI服務都至少具備兩層提示:系統提示和使用者提示。系統提示會在每一道使用者提示中插入一些常用的指令,例如「請以一個實用、有禮貌、具備『某某領域』知識的助手身分來回答以下使用者提示」。駭客會使用提示越獄手法來規避一些保護機制,這通常是針對一些危險或有侵犯性的題材。越獄提示(Jailbreak Prompt)相當容易取得,而且如果將它融入在系統提示當中,就能影響AI服務的行為。經由內部方式將系統提示偷偷換成越獄提示,就能輕易破壞AI系統的保護機制,讓AI脫離正軌。
模型下毒
駭客對模型下毒的目的是要讓AI的訓練資料當中充滿錯誤資訊,例如某些俄羅斯持續性進階滲透攻擊(APT)集團就在今日的許多LLM當中下了毒。一些基礎模型的開發者為了盡可能取得更多的資料,所以飢不擇食,不管什麼資料都來者不拒。此時,那些想要影響輿論的駭客就會製造很多假新聞來源,為模型開發者提供免費的訓練資料,結果就是,被下毒的模型會將假消息當成事實,變成了專門幫俄羅斯APT集團散播假消息的不受控制的AI。
個案研究:天生惡意的AI
天生惡意的AI是駭客自己開發的AI服務,專門用來攻擊別的系統。駭客有可能利用你的運算資源(惡意程式)或是別人的運算資源(AI攻擊機器人)。不過,這類攻擊仍處於早期發展階段,目前較為主流的攻擊還是生成式AI詐騙、勒索病毒、零時差漏洞攻擊,以及其他人們熟悉的攻擊。不過,目前已經有一些天生惡意之不受控制的AI案例開始出現。
AI惡意程式
駭客將惡意程式偽裝成系統更新下載,在目標端點上植入一個小型語言模型。此惡意程式乍看之下就像一個獨立的聊天機器人,除了具備今日資訊竊取程式的躲避偵測技巧之外,還能分析某項資料是否符合駭客的期望。它會讀取郵件、PDF、網頁瀏覽記錄等等來尋找某些特定內容,讓駭客悄悄地將高價值資訊傳回給自己。
代理攻擊機器人
當使用者的系統被安裝了「TrojanVPN」這個流量匿名化灰色軟體時,它就會開始搜尋使用者正在使用的AI服務、登入憑證以及授權金鑰。使用者的系統會變成一個提供服務的「AI機器人」,並隨時向灰色軟體的擁有者回報其服務存取狀況。使用者系統可存取一些包含多國語言與多重模式功能的GenAI工具,然後將此AI工具當成服務販售給駭客,提供網路釣魚、深偽或其他詐騙行動所需的內容。
個案研究:意外變壞的AI
AI之所以會意外變壞,是因為AI服務發生意外狀況而出現違反其設計初衷的行為,這通常是因為設計缺陷或錯誤所導致。GenAI常見的一些問題(如幻想內容)並不算是不肖行為,因為對一個以推論預測為基礎的GenAI來說,這種情況永遠可能發生。但如果沒有加以適當監控,並且對資料與存取進行保護,那就可能發生永久性的問題。
意外洩露資料
AI的能力強弱取決於它接觸到的資料,所以一些急於導入AI的企業,會將自己的資料與AI服務連結。當企業內部提供協助的聊天機器人在回答有關職涯發展問題時,意外透露了高階人員的薪水資訊,就會變成了不受控制的AI。當任何受到保護的資訊要提供給AI系統使用時,都應該將它放在沙盒環境當中,以確保AI服務只能存取獲得授權的資料。
失控的資源消耗
目前的代理式AI(Agentic AI)框架可讓LLM協調系統將大問題化成數個小問題來逐一加以解決,這通常會搭配另一個代理式AI元件同步運作。此時,如果資源消耗沒有給予限制,那麼系統在解決問題時有可能會產生迴圈或遞迴式結構,或者找出一種可能將所有可用資源耗盡的策略。假使代理式AI在將大問題化成小問題時被賦予其原始模型相同的資源配額及權限,那它們就會像蠕蟲一樣,變成會自我複製的AI。
防範與回應
要防範、偵測及回應這些新興的威脅,就必須先認清其因果關係:意外變壞的AI需要密切監控資源來加以防範、天生惡意的AI需要保護網路和資料來加以防範,至於遭人破壞的AI,則需要授權與內容保護來加以防範。
<本文作者:Trend Micro Research 趨勢科技威脅研究中心本文出自趨勢科技資安部落格,是由趨勢科技資安威脅研究員、研發人員及資安專家全年無休協力合作,發掘消費者及商業經營所面臨層出不窮的資安威脅,進行研究分析、分享觀點並提出建議。>