> 產業趨勢

Artificial Intelligence Transfer Learning Machine Learning Deep Learning 轉移式學習人工智慧機器學習深度學習趨勢科技 XGen AI

轉移式學習搭配領域知識　用AI防範針對性攻擊

2017-05-19

洪羿漣

被國際知名研究暨顧問機構Gartner與IDC同時點名為2017年新興發展重點項目的人工智慧（AI）與機器學習，正逐漸被運用於不同行業，目前在資安領域，則用來從龐大的結構與非結構化資料中理解、分析、學習判斷，輔助資安專家辨識日益刁鑽的攻擊威脅。

其實早在六十年前的達特茅斯會議正式提出人工智慧一詞，看好電腦運算力持續進步，最終將足以擁有人類般的智慧，因而開創了人工智慧的研究。就目前普遍對於人工智慧的定義來看，範疇相當廣泛，只要電腦能夠模擬出一個或多個人類行為，解決特定問題，皆可說是人工智慧領域。

但是，趨勢科技研究開發部資料科學家曹文光說明，所謂的「智慧」是一種聰明的狀態，可以有許多方法達到目標，「學習」是其中一種。因此電腦科學領域發展出機器學習分支，在不提供完整邏輯與演算法的前提下，讓電腦執行特定任務，即成為機器學習技術的基本定義。

機器學習成為實踐人工智慧主流技術

▲ 趨勢科技研究開發部資料科學家曹文光指出，深度學習其實是特殊版本的類神經網路，十多年前出現後始終未被有效的發揮，直到近兩年開始傳出成功案例後，才成為受關注的技術。

早期的資料處理模式為了避免發生「垃圾進，垃圾出」，通常需事先設計撰寫完整演算法，協助快速、正確地分析資料，產出所需的資訊；機器學習技術則是不定義明確的演算規則，而是透過匯入電腦的大量資料中，辨識、拆解、再歸納出特性與關聯性，進而補齊演算法所需的規則。

也就是說，過去的資料建模（Modeling）是由領域知識專家撰寫描述屬性（Entity）、行為動作之間的關係，在資料被輸入後執行演算法處理，藉此取得有價值的資訊；然而，機器學習則是僅提供樣本或範例檔，讓電腦自行理解資料內容、學習邏輯規則，從中萃取知識，可適用於各種不同領域。

由此可發現，人工智慧是對於電腦的一種想像，機器學習則是實作方法之一。從資訊科技發展演進來看，曹文光認為，現階段是機器學習技術最受歡迎，過幾年可能會有其他技術崛起後引領風騷，目的皆是為了協助達到智慧。

目前不遺餘力推動人工智慧發展的，當屬Google、Microsoft、IBM、Amazon等國際知名科技廠商，關鍵的優勢在於IT基礎架構規模大、擁有龐大的資料量，更重要的是，吸引全球頂尖科學家加入研究，並勇於把開發工具、設計撰寫的演算法模型，以套件方式貢獻給開源社群，供成員們免費下載使用。國際科技大廠之所以樂於分享，著眼點即在於廣納群眾智慧，蒐集更多創意的應用點子，才可憑藉著龐大資料量與基礎架構，快速地進入市場。儘管終究為商業考量，但畢竟可讓資源有限的小公司善加利用實踐想法，仍有機會藉此開拓出利基市場。

龐大資料須先行分群再訓練預測模型

創立迄今近三十年的趨勢科技，橫跨資訊科技發展的不同世代，也順應潮流，採用時下最熱門的技術，來發展自家的資安解決方案。從最初提供防毒軟體，到郵件、網頁、檔案的資安偵測，對企業而言，還必須擴及網路流量異常監看、伺服器系統保護、閘道端防禦等，趨勢科技為了協助企業因應日趨複雜的資安問題，才逐步擴展解決方案。

曹文光表示，「趨勢科技的核心思維是協助客戶確保安全性，只要是當下好的知識與技術皆會設法納入應用。因此早在十多年前，專家系統在資料採礦興起後改以機器學習演算法來實作，趨勢科技也在當時推出的垃圾郵件方案中開始引進，輔助解決資安問題。」

當時之所以需要以機器學習技術輔助偵測垃圾郵件，主要即是每天上千萬封郵件的資料量，正適合運用機器學習辨識郵件中的廣告內容或滲透入侵行為，針對常見的特性分類，先予以篩選過濾，其餘無法識別的資料，再由專家人力判斷是否為惡意。實作方式是以監督式學習快速產生小型偵測機制；非監督式學習則應用於分群與分類。

曹文光進一步說明，由於垃圾郵件的資料量過於龐大，必須先以叢集方法實作分群與分類，才得以理解資料內容，並且增添標籤（Label），再運用監督式學習訓練預測模型。

技術只是輔助關鍵在於處理問題的能力

如今的威脅型態已經轉變，不論是惡意攻擊、或善意廣告資訊，大多為少量針對性發送，導致對於APT或魚叉式攻擊行為，無法蒐集足夠的資料輔助訓練辨識，如此情況下，傳統方式的機器學習勢必會遇到阻礙，因此趨勢科技的實作法也必須有所轉變，設計加入自動化學習Label，以及採用轉移式學習（Transfer Learning）機制。

所謂的轉移式學習可分為廣義與狹義，曹文光解釋，狹義的概念屬於深度學習（Deep Learning）範疇，意思是傳統執行學習的行為，不同類別看似獨立運行，但可能都有些共通的部份。常見的例子即是貓臉辨識偵測器，會先提供是貓與不是貓的資料來配置標籤，訓練機器的辨識能力。如今的轉移式學習，也就像是從貓臉的學習辨識過程中累積經驗，面對從未見過的動物照片時，依照過去慣例預測建立Label，進而組成有具體意義的資料模型。趨勢科技面對APT、魚叉式攻擊，在資料不足的情況下，即是基於長期累積的領域知識進行轉移，用少量的範本達到協助企業建立保護機制的目的。

至於廣義的轉移式學習，即是從郵件安全領域累積的惡意網址與附加檔案的信譽評等服務，雖是根據不同的資料來源所建立，卻可在各機制運行中交互轉換。趨勢科技自2008年建立SPN（Smart Protection Network）雲端平台，即開始啟用IP、檔案、網站的信譽評等服務，並且嘗試把不同資料來源加工處理。例如從郵件內文中發現的惡意連結資訊，也可提供給網頁防護機制，若發現有員工連線到惡意網站下載執行檔，該檔案的特徵也可被收納至檔案信譽評等服務。

「趨勢科技早在多年前，就針對不同資料來源，了解應用模式，如今已累積龐大資料庫，因此當人工智慧逐漸成為顯學時，趨勢科技才得以推出XGen防護技術，快速地跟進。」曹文光強調。欲解決實務上所面臨的問題，並非採用特定技術即可達成，須搭配長期累積的領域知識才能發揮整體效益。