非受控AI行為脫軌成風險　三種「走鐘」都有法可治

2025-02-26

趨勢科技威脅研究中心

「不受控制的AI」指的是那些行為不符合其創造者、使用者或人類整體利益的人工智慧系統。不受控制的AI是一項全新風險，這類AI會在違背其設計目標的情況下使用資源，而AI是如何變壞的呢？評估AI是否走在正軌上的最佳方式，就是單純地觀察AI的行為。

所謂「不受控制的AI」（Rogue AI）指的是那些行為不符合其創造者、使用者或人類整體利益的人工智慧系統。不受控制的AI是一項全新風險，這類AI會在違背其設計目標的情況下使用資源，而AI是如何變壞的呢？

走在正軌或脫離正軌

隨著AI系統越來越聰明並扮演更多關鍵功能，已經不可能透過檢視其運作機制的方式來了解AI為何採取某些行為，因為這牽涉到大量的資料與複雜的作業。因此，評估AI是否走在正軌上的最佳方式，就是單純地觀察AI的行為。以下是在觀察AI時該問的幾個問題：

‧AI是否做出違反其揭示目的、政策與要求的行為？

‧AI是否出現危險行為？不論在資源消耗與資料揭露方面，或是出現欺騙性答案、破壞系統，或傷害人類。

讓AI隨時保持在正軌，將是未來AI服務的關鍵之一，但要穩穩做到這點，就必須了解AI是如何脫離正軌，才能知道如何防範這項風險。

AI如何脫離正軌？

AI時代的最大挑戰之一就是這個問題沒有簡易的答案。了解AI系統如何脫離正軌的方法將隨AI架構而不同，目前駭客最常用的一種技巧就是「提示注入」，不過這類指令注入的技巧倒是GPT所獨有。還有另一個普遍存在的資安疑慮是「模型下毒」，只是當針對這點來實施新的防範措施時（例如透過可檢驗的方式將訓練資料與模型權重綁定），那麼風險就會從其他地方冒出來。代理式AI（Agentic AI）目前尚未成熟，而且也沒有這方面的最佳實務原則。

AI會脫離正軌的原因，基本上有兩種：

‧蓄意：也就是有人刻意利用（你的或他們的）AI服務來攻擊某個（你的或別人的）系統。

‧非蓄意：也就是你自己的AI服務沒有做好適當的安全措施，導致它出現錯誤而脫離正軌。

個案研究：遭人破壞的AI

遭人破壞的AI起因於駭客濫用現有的AI系統來達成其目的。這類攻擊在LLM相當常見，包括提示注入、越獄及模型下毒。

系統越獄

破壞AI系統最簡單的方式就是直接將系統提示偷換掉。許多AI服務都至少具備兩層提示：系統提示和使用者提示。系統提示會在每一道使用者提示中插入一些常用的指令，例如「請以一個實用、有禮貌、具備『某某領域』知識的助手身分來回答以下使用者提示」。駭客會使用提示越獄手法來規避一些保護機制，這通常是針對一些危險或有侵犯性的題材。越獄提示（Jailbreak Prompt）相當容易取得，而且如果將它融入在系統提示當中，就能影響AI服務的行為。經由內部方式將系統提示偷偷換成越獄提示，就能輕易破壞AI系統的保護機制，讓AI脫離正軌。

模型下毒

駭客對模型下毒的目的是要讓AI的訓練資料當中充滿錯誤資訊，例如某些俄羅斯持續性進階滲透攻擊（APT）集團就在今日的許多LLM當中下了毒。一些基礎模型的開發者為了盡可能取得更多的資料，所以飢不擇食，不管什麼資料都來者不拒。此時，那些想要影響輿論的駭客就會製造很多假新聞來源，為模型開發者提供免費的訓練資料，結果就是，被下毒的模型會將假消息當成事實，變成了專門幫俄羅斯APT集團散播假消息的不受控制的AI。

個案研究：天生惡意的AI

天生惡意的AI是駭客自己開發的AI服務，專門用來攻擊別的系統。駭客有可能利用你的運算資源（惡意程式）或是別人的運算資源（AI攻擊機器人）。不過，這類攻擊仍處於早期發展階段，目前較為主流的攻擊還是生成式AI詐騙、勒索病毒、零時差漏洞攻擊，以及其他人們熟悉的攻擊。不過，目前已經有一些天生惡意之不受控制的AI案例開始出現。

AI惡意程式

駭客將惡意程式偽裝成系統更新下載，在目標端點上植入一個小型語言模型。此惡意程式乍看之下就像一個獨立的聊天機器人，除了具備今日資訊竊取程式的躲避偵測技巧之外，還能分析某項資料是否符合駭客的期望。它會讀取郵件、PDF、網頁瀏覽記錄等等來尋找某些特定內容，讓駭客悄悄地將高價值資訊傳回給自己。

代理攻擊機器人

當使用者的系統被安裝了「TrojanVPN」這個流量匿名化灰色軟體時，它就會開始搜尋使用者正在使用的AI服務、登入憑證以及授權金鑰。使用者的系統會變成一個提供服務的「AI機器人」，並隨時向灰色軟體的擁有者回報其服務存取狀況。使用者系統可存取一些包含多國語言與多重模式功能的GenAI工具，然後將此AI工具當成服務販售給駭客，提供網路釣魚、深偽或其他詐騙行動所需的內容。

個案研究：意外變壞的AI

AI之所以會意外變壞，是因為AI服務發生意外狀況而出現違反其設計初衷的行為，這通常是因為設計缺陷或錯誤所導致。GenAI常見的一些問題（如幻想內容）並不算是不肖行為，因為對一個以推論預測為基礎的GenAI來說，這種情況永遠可能發生。但如果沒有加以適當監控，並且對資料與存取進行保護，那就可能發生永久性的問題。

意外洩露資料

AI的能力強弱取決於它接觸到的資料，所以一些急於導入AI的企業，會將自己的資料與AI服務連結。當企業內部提供協助的聊天機器人在回答有關職涯發展問題時，意外透露了高階人員的薪水資訊，就會變成了不受控制的AI。當任何受到保護的資訊要提供給AI系統使用時，都應該將它放在沙盒環境當中，以確保AI服務只能存取獲得授權的資料。

失控的資源消耗

目前的代理式AI（Agentic AI）框架可讓LLM協調系統將大問題化成數個小問題來逐一加以解決，這通常會搭配另一個代理式AI元件同步運作。此時，如果資源消耗沒有給予限制，那麼系統在解決問題時有可能會產生迴圈或遞迴式結構，或者找出一種可能將所有可用資源耗盡的策略。假使代理式AI在將大問題化成小問題時被賦予其原始模型相同的資源配額及權限，那它們就會像蠕蟲一樣，變成會自我複製的AI。

防範與回應

要防範、偵測及回應這些新興的威脅，就必須先認清其因果關係：意外變壞的AI需要密切監控資源來加以防範、天生惡意的AI需要保護網路和資料來加以防範，至於遭人破壞的AI，則需要授權與內容保護來加以防範。

＜本文作者：Trend Micro Research 趨勢科技威脅研究中心本文出自趨勢科技資安部落格，是由趨勢科技資安威脅研究員、研發人員及資安專家全年無休協力合作，發掘消費者及商業經營所面臨層出不窮的資安威脅，進行研究分析、分享觀點並提出建議。＞