Artificial Intelligence Transfer Learning Machine Learning Deep Learning 轉移式學習 人工智慧 機器學習 深度學習 趨勢科技 XGen AI

轉移式學習搭配領域知識 用AI防範針對性攻擊

2017-05-19
被國際知名研究暨顧問機構Gartner與IDC同時點名為2017年新興發展重點項目的人工智慧(AI)與機器學習,正逐漸被運用於不同行業,目前在資安領域,則用來從龐大的結構與非結構化資料中理解、分析、學習判斷,輔助資安專家辨識日益刁鑽的攻擊威脅。

被國際知名研究暨顧問機構Gartner與IDC同時點名為2017年新興發展重點項目的人工智慧(AI)與機器學習,正逐漸被運用於不同行業,目前在資安領域,則用來從龐大的結構與非結構化資料中理解、分析、學習判斷,輔助資安專家辨識日益刁鑽的攻擊威脅。

其實早在六十年前的達特茅斯會議正式提出人工智慧一詞,看好電腦運算力持續進步,最終將足以擁有人類般的智慧,因而開創了人工智慧的研究。就目前普遍對於人工智慧的定義來看,範疇相當廣泛,只要電腦能夠模擬出一個或多個人類行為,解決特定問題,皆可說是人工智慧領域。

但是,趨勢科技研究開發部資料科學家曹文光說明,所謂的「智慧」是一種聰明的狀態,可以有許多方法達到目標,「學習」是其中一種。因此電腦科學領域發展出機器學習分支,在不提供完整邏輯與演算法的前提下,讓電腦執行特定任務,即成為機器學習技術的基本定義。

機器學習成為實踐人工智慧主流技術

▲ 趨勢科技研究開發部資料科學家曹文光指出,深度學習其實是特殊版本的類神經網路,十多年前出現後始終未被有效的發揮,直到近兩年開始傳出成功案例後,才成為受關注的技術。
早期的資料處理模式為了避免發生「垃圾進,垃圾出」,通常需事先設計撰寫完整演算法,協助快速、正確地分析資料,產出所需的資訊;機器學習技術則是不定義明確的演算規則,而是透過匯入電腦的大量資料中,辨識、拆解、再歸納出特性與關聯性,進而補齊演算法所需的規則。

也就是說,過去的資料建模(Modeling)是由領域知識專家撰寫描述屬性(Entity)、行為動作之間的關係,在資料被輸入後執行演算法處理,藉此取得有價值的資訊;然而,機器學習則是僅提供樣本或範例檔,讓電腦自行理解資料內容、學習邏輯規則,從中萃取知識,可適用於各種不同領域。

由此可發現,人工智慧是對於電腦的一種想像,機器學習則是實作方法之一。從資訊科技發展演進來看,曹文光認為,現階段是機器學習技術最受歡迎,過幾年可能會有其他技術崛起後引領風騷,目的皆是為了協助達到智慧。

目前不遺餘力推動人工智慧發展的,當屬Google、Microsoft、IBM、Amazon等國際知名科技廠商,關鍵的優勢在於IT基礎架構規模大、擁有龐大的資料量,更重要的是,吸引全球頂尖科學家加入研究,並勇於把開發工具、設計撰寫的演算法模型,以套件方式貢獻給開源社群,供成員們免費下載使用。國際科技大廠之所以樂於分享,著眼點即在於廣納群眾智慧,蒐集更多創意的應用點子,才可憑藉著龐大資料量與基礎架構,快速地進入市場。儘管終究為商業考量,但畢竟可讓資源有限的小公司善加利用實踐想法,仍有機會藉此開拓出利基市場。

龐大資料須先行分群再訓練預測模型

創立迄今近三十年的趨勢科技,橫跨資訊科技發展的不同世代,也順應潮流,採用時下最熱門的技術,來發展自家的資安解決方案。從最初提供防毒軟體,到郵件、網頁、檔案的資安偵測,對企業而言,還必須擴及網路流量異常監看、伺服器系統保護、閘道端防禦等,趨勢科技為了協助企業因應日趨複雜的資安問題,才逐步擴展解決方案。

曹文光表示,「趨勢科技的核心思維是協助客戶確保安全性,只要是當下好的知識與技術皆會設法納入應用。因此早在十多年前,專家系統在資料採礦興起後改以機器學習演算法來實作,趨勢科技也在當時推出的垃圾郵件方案中開始引進,輔助解決資安問題。」

當時之所以需要以機器學習技術輔助偵測垃圾郵件,主要即是每天上千萬封郵件的資料量,正適合運用機器學習辨識郵件中的廣告內容或滲透入侵行為,針對常見的特性分類,先予以篩選過濾,其餘無法識別的資料,再由專家人力判斷是否為惡意。實作方式是以監督式學習快速產生小型偵測機制;非監督式學習則應用於分群與分類。

曹文光進一步說明,由於垃圾郵件的資料量過於龐大,必須先以叢集方法實作分群與分類,才得以理解資料內容,並且增添標籤(Label),再運用監督式學習訓練預測模型。

技術只是輔助關鍵在於處理問題的能力

如今的威脅型態已經轉變,不論是惡意攻擊、或善意廣告資訊,大多為少量針對性發送,導致對於APT或魚叉式攻擊行為,無法蒐集足夠的資料輔助訓練辨識,如此情況下,傳統方式的機器學習勢必會遇到阻礙,因此趨勢科技的實作法也必須有所轉變,設計加入自動化學習Label,以及採用轉移式學習(Transfer Learning)機制。

所謂的轉移式學習可分為廣義與狹義,曹文光解釋,狹義的概念屬於深度學習(Deep Learning)範疇,意思是傳統執行學習的行為,不同類別看似獨立運行,但可能都有些共通的部份。常見的例子即是貓臉辨識偵測器,會先提供是貓與不是貓的資料來配置標籤,訓練機器的辨識能力。如今的轉移式學習,也就像是從貓臉的學習辨識過程中累積經驗,面對從未見過的動物照片時,依照過去慣例預測建立Label,進而組成有具體意義的資料模型。趨勢科技面對APT、魚叉式攻擊,在資料不足的情況下,即是基於長期累積的領域知識進行轉移,用少量的範本達到協助企業建立保護機制的目的。

至於廣義的轉移式學習,即是從郵件安全領域累積的惡意網址與附加檔案的信譽評等服務,雖是根據不同的資料來源所建立,卻可在各機制運行中交互轉換。趨勢科技自2008年建立SPN(Smart Protection Network)雲端平台,即開始啟用IP、檔案、網站的信譽評等服務,並且嘗試把不同資料來源加工處理。例如從郵件內文中發現的惡意連結資訊,也可提供給網頁防護機制,若發現有員工連線到惡意網站下載執行檔,該檔案的特徵也可被收納至檔案信譽評等服務。

「趨勢科技早在多年前,就針對不同資料來源,了解應用模式,如今已累積龐大資料庫,因此當人工智慧逐漸成為顯學時,趨勢科技才得以推出XGen防護技術,快速地跟進。」曹文光強調。欲解決實務上所面臨的問題,並非採用特定技術即可達成,須搭配長期累積的領域知識才能發揮整體效益。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!