2024年7月19日,端點防護軟體的主要廠商CrowdStrike旗下產品Falcon軟體更新出錯,影響使用微軟Azure和Microsoft 365系統的企業,導致全球超過850萬台伺服器及電腦裝置當機。整體事件揭露了資安服務提供商的測試盲點,CrowdStrike在軟體開發流程中過於信任早期測試結果,忽視了對新增功能的全面測試。
西元2024年7月19日,全球發生大規模藍白當機事件,端點防護軟體的主要廠商CrowdStrike旗下產品Falcon軟體更新出錯,影響使用微軟Azure和Microsoft 365系統的企業,導致全球超過850萬台伺服器及電腦裝置當機。事件主要影響企業用戶,對個人用戶影響較小。其中航空業受到衝擊最大,全球逾5,000個航班受到影響。另外,醫療、金融、政府機關和媒體等產業也遭受嚴重衝擊。一言以蔽之,整體事件揭露了資安服務提供商的測試盲點,CrowdStrike在軟體開發流程中過於信任早期測試結果,忽視了對新增功能的全面測試。
不當軟體更新,影響與衝擊更甚大型資安攻擊
從雲端服務提供商的角度觀察,雖然直接責任在於CrowdStrike,但微軟的系統架構設計允許外部程式直接影響核心驅動程式運作,使得Windows系統面對類似問題時顯得特別脆弱。
對企業用戶而言,具備快速評估系統當機影響和實施服務不中斷策略在災害事件中顯得極為重要,以金融業的應對措施為例,包括切換備援系統、手動記錄交易,並尋求技術支援等都可讓整體服務能維持運作並快速恢復。
從供應鏈角度來觀察,供應鏈物流是關鍵的脆弱環節,尤其是航空和運輸業受到嚴重衝擊之後,為建立更具韌性的供應鏈,企業更應多元化關鍵軟體和技術來源,避免過度依賴單一資安供應商或雲服務平台而導致全面癱瘓的風險。
健全的軟體開發生命週期、雲地整合的軟體測試重要性大增
CrowdStrike事件強調了在軟體更新部署過程中,安全的SSDLC(Secure Software Development Life Cycle)以及嚴謹的驗證和測試的重要性。嚴格的驗證過程可以確保更新在推送到數百萬設備之前進行徹底的審查,而有效的部署策略有助於降低軟體更新風險。
分階段推出更新,除了可以幫助及早發現問題並限制其影響範疇,自動回滾機制亦可進一步強化系統的彈性,能夠在出現問題時快速恢復到先前穩定的版本。同時,亦須考慮增加系統和服務供應商的多樣性,避免單點故障,或採用多雲或混合雲策略以利分散風險。另外,在系統及資料備份上,除了定期備份外,也要遵守3-2-1基本原則。
為防止類似事件再次發生,CrowdStrike承諾將透過地端開發者測試、內容更新和回滾測試,以及壓力測試、模糊測試、故障注入,再輔以穩定性測試和內容介面測試等來改善測試的完整度及嚴謹度,並進一步確保測試品質。
另外,亦將更新其基於雲端的內容驗證器(Content Validator),確保在發布前做最後的檢核。在驅動程式方面,CrowdStrike則將實施分階段部署,透過交錯部署(Staggered Deployment)或金絲雀部署(Canary Deployment)逐步擴大到更廣泛的安裝基礎,而不是立即推送到所有的系統與終端,從而降低新版本發布的風險。
自動偵測與即時回應需求將驅動更多企業導入AIOps
CrowdStrike事件強調IT營運進行主動的問題檢測和預防的必要性。傳統的IT監控工具通常只能在問題發生後做出事件回應,導致顯著的停機時間和運營中斷。AIOps系統透過即時分析大量資料,提前識別潛在問題,從而提供了預警性的防護機制。除了可以減少因停擺所導致的經濟損失,並確保營運服務的連續性。
自動化的事件偵測與回應是AIOps另一項重要優勢。透過自動化檢測對異常事件進行回應,系統可以更快速有效地處理問題,減少中斷所造成的影響。尤其是在高度數位化的環境中,些微的延遲就可能產生嚴重後果。自動化關鍵流程的能力不僅能最大限度地減少停機時間,還能降低人為錯誤的可能性。 強化可視性和監控也是採用AIOps的好處之一。AIOps平台提供了組織IT基礎設施的全方位鳥瞰圖,整合來自不同來源的資料,提供更深入的洞見,讓IT團隊能夠快速識別和解決問題,找出因果關聯與根因,提高整體營運效率。隨著IT環境變得越來越複雜,擁有統一的視瞰圖對於有效管理和快速決策至關重要。
最後,AIOps可以自動化例行任務,其可擴展性和適應性亦適合滿足企業不斷演變的需求。相關系統可以隨著組織的成長而擴展,處理更大量的資料和更複雜的環境,因此成為企業具吸引力的導入選項之一,有助於現代化IT管理並降低長期營運成本。
強化數位韌性刻不容緩
IT系統的脆弱性和相互依存性在這次事件中表露無遺,不僅暴露了資安服務提供商在軟體測試和部署方面的準備不足,也顯示出雲端服務架構中潛在的安全隱患。這記當頭棒喝也警示全球企業需要重新審視IT系統的韌性,加強軟體開發和測試流程,採用更安全的部署策略,以應對日益複雜的數位環境挑戰。而除了導入AIOps之外,透過CI/CD(Continuous Integration, Continuous Delivery/Deployment)的流程自動化,持續整合確保更新能夠在受控的環境中定期合併、測試和驗證,從而減少引入錯誤的風險。同時,持續交付和部署讓這些更新能夠自動或手動分階段推送到生產環境,並透過AIOps進行即時監控,以檢測任何異常情況並在必要時回滾更改。
微軟和CrowdStrike癱瘓事件印證了即使是成熟的IT基礎設施也存在相當程度的脆弱性。儘管災害復原集中在損害規模的控制,但長期更應著重在加強測試、軟體生命週期管理,以及風險轉移或緩解來防止類似事件的發生。藉由CI/CD流程自動化和AIOps快速迭代管理亦可望在頻繁快速的部署週期中,確保更新過程更加穩健和可控。
<本文作者:朱南勳現任資策會MIC主任,專業於軟體與通訊產業研究,長期關注前瞻軟體應用與通訊技術發展趨勢。曾於緯創資通公司擔任產品經理、趨勢科技公司擔任市場競爭力研究員,負責新產品認證開發與國際電腦大廠專案,並曾任經濟部技術處5G辦公室副主任。資策會產業情報研究所(MIC)長期觀測高科技產業市場情報與發展趨勢,是臺灣資通訊產業與政府倚重的專業智庫。>