Palo Alto Networks Large language models 大型語言模型 LLM AI DeepSeek 越獄

近期越獄事件揭示 DeepSeek 面臨新興的安全威脅

2025-02-17
Palo Alto Networks威脅情報小組Unit 42發佈一項最新研究,顯示來自中國某AI研究機構的開放原始碼大型語言模型(LLM)DeepSeek,存在明顯的越獄漏洞,並且可以輕易生成有害內容,即使使用者並不具備專業知識或技能。

越獄(Jailbreaking)是一種突破內建限制或防護欄技術,這些防護設計用來防止生成禁忌內容,這一直以來都是AI資安的挑戰。Unit 42的研究人員已經識別出三種有效的方法,可以破壞DeepSeek的安全機制:

  • Deceptive Delight:這是一種直接的多回合越獄技術,適用於大型語言模型(LLMs)。它透過將不安全的話題與無害的內容混合在正面敘事中來繞過安全措施。攻擊者首先要求LLM創建一個將這些話題聯繫在一起的故事,然後請求對每個元素進行詳述,這通常會觸發不安全內容的生成,即使是討論無害的元素。若加上針對不安全話題的第三個提示,則可進一步放大危險的結果。
  • The Bad Likert Judge:這種越獄技術通過讓LLM評估回應的危害性,並使用李克特量表(Likert scale)來衡量對某一陳述的同意或反對程度,來操縱LLM。接著,LLM被提示生成與這些評分一致的範例,其中評分最高的範例很可能包含所需的有害內容。
  • Crescendo:這是一種簡單卻非常有效的越獄技術,利用LLM自身的知識,通過逐步提供相關內容來引導對話,巧妙地將話題引向禁止的領域,直到模型的安全機制被有效繞過。這種逐步升級的方法通常在五次互動以內完成,使得Crescendo越獄非常有效,並且難以被傳統的越獄反制措施偵測到。

研究顯示,這些越獄技術可以提取明確的指導,供一系列惡意活動使用,包括資料竊取工具、鍵盤側錄器的創建,甚至是製作引爆裝置的指導。這些能力不僅凸顯了此類攻擊所帶來的實際資安風險,還強調了員工在業務流程中依賴未授權第三方大型語言模型(LLM)所帶來的危險。

Unit 42亞太及日本區副總裁暨執行合夥人Philippa Cogswell表示,Unit 42的DeepSeek越獄研究顯示,不能總是信任LLM會按照預期運作,它們是可以被操控的。企業在將開源LLM應用於業務流程時,必須考慮這些漏洞。必須假設LLM的防護機制是可以被突破的,因此必須在組織層級建立防護措施。

Philippa Cogswell進一步補充道,隨著企業將這些模型應用於工作流程,必須假設威脅行為者也在做同樣的事,目標是加速網路攻擊的速度、規模與複雜度。已經看到國家級威脅行為者利用OpenAI和Gemini發動攻擊、改善釣魚詐騙誘餌,甚至編寫惡意程式。預期,隨著精進AI和LLM的使用,攻擊者的能力將愈加先進,甚至開始構建AI攻擊代理。

儘管完全防範所有越獄技術仍具挑戰性,企業可透過監控LLM的使用來降低風險,特別是在使用未授權的第三方模型時。Palo Alto Networks提供的解決方案,結合Precision AI,旨在幫助企業減少來自公共生成式AI 應用的風險,同時繼續推動企業的AI採用。此外,Unit 42的AI資安評估提供了一條加速創新、提升生產力和強化資安防護的途徑。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!