安全防禦 紅隊 LLM 大型語言模型 數據污染

師法傳統資安紅隊攻擊演練 應對AI時代先進持續威脅

越獄咒語恐攻破安全機制 AI紅隊減人工智慧風險

2024-04-17
在這波GAI推波助瀾下,AI紅隊的任務就是模擬駭客或其他的潛在危險人物,試圖找到大型語言模型的漏洞,進而避免AI在現實社會中,在有意或無意的情況下,被利用來生成意圖不軌或有害社會安全等不法目的的內容。

在網路安全中,「紅隊」指的是一群資安專業人員,利用自己的技能、工具和知識來模仿真實世界攻擊者的戰術、技術和程序(TTPs)。紅隊的主要目標是透過識別漏洞、測試防禦和評估現有安全措施的有效性,來評估和改善組織的安全態勢,以確保組織的營運不受威脅影響。

紅隊活動通常由「藍隊」補充,藍隊是負責防禦紅隊攻擊的內部或外部團體。這種對抗性方法有助於建立一個擬真的場景,以測試組織檢測、回應和從複雜的網路攻擊中復原的能力。本質上,紅隊行動提供了對組織安全防禦的主動和全面評估,幫助確保它們能夠抵禦在現實世界中面臨的進階和持續威脅。

GAI下AI紅隊的興起

在網路安全中,紅隊意味著與系統或網路的對抗關係。紅隊成員的目標是以模擬實際攻擊的方式入侵、駭客或對系統造成損壞。不過對於AI系統而言,紅隊可能根本不涉及實際的駭客行為。例如,攻擊大型語言模型(LLM)的一種方式是以提示方式(如Prompt Injection),繞過開發者可能對其設置的任何限制或保護措施。

大多數LLM聊天機器人都故意設計為不輸出有害或有毒內容,例如仇恨言論。然而,許多用戶發現了各種提示駭客或「越獄」以規避這些控制。這些提示駭客採取自然語言指令的形式,通常在AI模型完全訓練並部署用於像聊天機器人這樣的軟體應用後給出。

AI模型可能像任何其他軟體一樣被駭客攻擊。例如,駭客可以竊取模型本身,允許他們出於自己的目的使用它,並規避開發者可能對其設置的任何控制,或者他們可以透過第三方插件(Plug-in)竊取模型能夠存取的數據。AI系統也擁有獨特的漏洞,如對抗性攻擊和數據污染的敏感性。這些是公認的漏洞,不僅限於語言或圖像生成模型。

在這波「生成式人工智慧(Generative Artificial Intelligence,GAI)」推波助瀾下,AI紅隊的任務就是模擬駭客或其他的潛在危險人物,試圖找到大型語言模型的漏洞,進而避免AI在現實社會中,在有意或無意的情況下,被利用來生成意圖不軌或有害社會安全等不法目的的內容。

GAI大廠紛推解決方案

為了預防或解決上述問題,包括OpenAI、Google、Microsoft和NVIDIA等,陸續發布了他們對AI紅隊的方法,其中包括對基於提示的應用程式和底層模型本身的對抗性網路安全測試。

例如,OpenAI在過去幾年一直聘請不同領域的專家來協助測試未發布的模型,目前正在組建正規的「AI紅隊」演練部隊,網羅大量來自不同地域、不同語言、不同專業領域以及不同生活經驗的人,使得AI模型更加安全。OpenAI甚至提供AI紅隊交流平台,期望能達到團隊組合的多元性及中立性。

Google AI紅隊除了與傳統紅隊密切合作外,更具備必要的AI專業知識,以模擬對AI系統可能造成的真實威脅,並尋求解決方案。Google的報告詳細描述了超出僅基於提示之攻擊的一系列紅隊攻擊,從滲透(試圖複製或竊取模型)到後門攻擊(給定「觸發」字詞或輸入時,以特定方式操縱模型行為)。

微軟則推出了PyRIT(Python Risk Identification Tool)支援工具,旨在識別GAI風險的開放式自動測試框架,以促進全球企業負責任地導入GAI,其目的並非為了取代紅隊演練,而是強調自動化的測試需求,並與手動測試達到互補效益。PyRIT評估大型語言模型的安全性,主要針對虛構幻覺、偏見、誤用、騷擾以及惡意軟體生成和隱私洩漏等風險,該工具提供了包括目標設定、數據集、評分引擎、攻擊策略和儲存輸出入結果的記憶體等多個功能介面。

另外,NVIDIA的紅隊演練採取了對整個AI開發管道的攻擊更全面的視角,並且還包括了如沙盤推演(Tabletop Exercise)以模擬風險或失敗場景。

AI紅隊的機會與挑戰

AI紅隊測試的重要性展示了AI系統可能面臨的威脅與攻擊。同時,AI模型的訓練數據可能包含個人資訊,導致潛在的隱私洩露風險。AI紅隊可預先發掘潛在的問題與弱點,也需要結合多種威脅建模(Threat Modeling)來應對不同的攻擊。傳統的控制措施對於緩解許多資安或網路風險通常效果顯著,但由於不同AI模型之間(包含資料、演算法及是否開源等)存在巨大的差異,加上多模態應用的逐漸成熟,面對生成式AI的多樣性與複雜性,AI紅隊演練重要性不可言喻,卻也仍面臨著諸多挑戰。

以OpenAI最新推出的應用Sora為例,現階段Sora僅針對部分人士提供訪問權限,態度相當謹慎,包含將模型開放給評估軟體潛在危害與風險的紅隊成員(Red Teamers),透過測試安全性與資訊正確性,排除色情、暴力、仇恨等敏感內容,並向部分視覺藝術家、設計師和電影製作人等「內容產業創作者」徵求對模型使用的專業意見回饋,以精進AI模型設計。

因此,除了依賴模型業者本身,不同企業與組織也必須視使用的需求與風險,進一步定義及實施AI紅隊,並結合AI評測等工具,再搭配相關的稽核與矯正措施。例如導入通用型LLM需要多元背景的AI紅隊團隊,或委由專業的第三方業者執行,著重通用化、可信任與可解釋性等。

另一方面,若選擇導入垂直應用型或經調校後(Fine-tuned)的LLM,或者應用「檢索增強生成(Retrieval Augmented Generation,RAG)」技術直接在企業提供的資料庫中進行檢索與生成,可進一步強調資料來源與輸出的可靠性、完整性、機密性及隱私性等,方得以最大化GAI帶來的商業效益,同時最小化資安風險及管理成本。

<本文作者:朱南勳,現任資策會MIC主任,專業於軟體與通訊產業研究,長期關注前瞻軟體應用與通訊技術發展趨勢。曾於緯創資通公司擔任產品經理、趨勢科技公司擔任市場競爭力研究員,負責新產品認證開發與國際電腦大廠專案,並曾任經濟部技術處5G辦公室副主任。資策會產業情報研究所(MIC)長期觀測高科技產業市場情報與發展趨勢,是臺灣資通訊產業與政府倚重的專業智庫。>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!