網路社群口碑資料庫 Openfind 自然語言分析語意分析機器學習網擎資訊意藍資訊輿情分析人工智慧 NLP

語意分析成人工智慧要角　本土軟體業者逆勢翻紅

2017-06-12

洪羿漣

聊天機器人、虛擬語音助理等應用正當紅，背後的人工智慧（AI）其實涵蓋了許多種類的技術，其中「語意解析」更是相當重要的一環。語意解析技術的區域化差異性相當大，往往在不同語文區甚至同一國家內部都有地區差異，考驗著廠商的在地化技術。也因此，累積了豐富經驗的台灣相關軟體廠商，包括垃圾郵件過濾、搜尋引擎、文件管理、知識管理、資料外洩預防、個資盤點、歸檔調閱方案的業者，便成為人工智慧新應用時代的關鍵技術供應商，也為產業帶來全新的發展契機。

中文字之所以難以辨識，主要在於沒有明確的字詞分界，例如英文可藉由空格來辨識單字，而中文字通常在各自獨立時，並不具備意義，至少兩個字以上的組合，才會產生詞性，也才得以進行語意分析。Openfind（網擎資訊）產品研發副總葉慶章指出，這也是歐美國家所研發的技術，推展到中文環境後，往往難以突破之處，未必有能力理解簡短一句話經過拆解、再組合的意思，可說有相當高的門檻。

基於搜尋熱門關鍵字學習新詞

對於中文語意分析來說，首先，必須要有能力斷詞，因此通常需搭配龐大的詞庫，協助從句子中精準地切割有意義的字詞。但是詞庫最大的挑戰，即在於新詞的處理能力，最典型的即是人名與公司名，不大可能採用字典方式列舉所有組合。因此針對新詞，以往常見是以自建方式補足更新；另一種則是統計學派的作法，計算出最近哪些字詞較常出現，分析出大致的原則。

中文字詞習慣上是以兩個字為基礎切分，之後再予以排列組合，找到彼此之間的關連性，藉此建立新詞。葉慶章說明，其實這門學科，大約在二十多年前的資訊檢索（Information Retrieval）領域就已有深入研究，實際上也是自然語言分析的分支，持續不斷地發展至今，新詞學習技術已屆成熟。

▲ Openfind產品研發副總葉慶章觀察，人工智慧本就持續不斷地發展，近兩年之所以成為各界關注的焦點，主要是商業模式所推動，市場預期將帶動新商機。

完成新詞的定義之後，緊接著要標註詞性，例如動詞、名詞、形容詞等特性。但複雜的是，中文詞性會隨著句子結構而改變，舉例，「分析」在詞庫中原為動詞，套用在「語意分析」則可能是名詞，諸如此類的句子拆解與判斷，正是處理中文語句最複雜之處，因此標註詞性領域也是門學問，大多數是依據詞庫，來判斷前、後文的關係。斷詞、新詞學習、標註，各個環節皆必須具備高精準度，才有能力解析中文句子的前、後文語意，進而實際被應用在人工智慧、聊天機器人（Chatbot）等商業領域。

以往在搜尋引擎常見的中文語意解析技術，如今開始被應用在對話場景，所要求的精準度差異極大。畢竟搜尋引擎平台僅為提供資料，透過關鍵字搜尋文章時，前三篇的關聯度極高即可，不需要達到精準的程度；但對話式應用，若定義瑕疵則往往會出現「雞同鴨講」的狀況，根本無法實踐互動、查詢等新體驗。

因此，對於找新詞的方式，Openfind主要是運用既有的搜尋引擎產品中，統計熱門搜尋關鍵字功能進行實作。葉慶章說明，搜尋引擎是全文檢索，詞庫中是否有關鍵字並不重要，同樣可以找到所需的文章，再把最常出現的關鍵字納入詞庫，藉此學習新詞；若採用傳統統計學計算，畢竟難免有誤差，況且現代人已習慣透過搜尋引擎找資料，輸入的關鍵字也愈來愈準確，即可直接納入成為新詞。

以溝通平台為基礎擴展內部流程便利性

近年來人工智慧之所以再次掀起浪潮，葉慶章觀察，主要原因是機器學習與深度學習演算法較以往進步很多，搭配現代運算速度的提升，才讓應用得以開始被實踐在各式新興領域。

隨著人工智慧的發展，大家又會開始關注中文語意解析技術。二十年前的中文語意解析，主要應用場景是藉此自動分類、從關鍵字找到文章、搜尋更快等方面。當然Openfind研發團隊也持續不斷地發展中文語意分析，應用到郵件系統。例如撰寫郵件，經過機器學習演算法發現內文中有許多情緒用語，即可觸發拉長延遲發送的時間，甚至系統可主動提醒使用者將延緩發送，藉此讓使用者有後悔的機會。

除了應用於輔助判斷情緒，以避免使用者做出錯誤的決策，另一方面，則是協助郵件分析。葉慶章說明，在公司內部，郵件內文不論是善意或惡意皆會被轉發分享，以稽核的角度，必須有所掌握，以免商業機密四處流傳；若為專案團隊，則是可藉由搜尋引擎，尋找公司過去所承接的專案，在往來的郵件與內部檔案中，取得參考資訊。這類應用場景即可透過語意分析、自然語言分析輔助處理。

至於Openfind下一步的研發方向，葉慶章透露，主要是基於既有的訊息溝通平台，透過API介接中文斷詞、詞性的知識庫，讓企業內部系統開發者，可藉此予以整合，發展更便利的應用模式。例如把郵件、訊息溝通的流程，串接內部請假系統的流程，如此一來，員工請假時，可能只需要開啟即時通訊軟體，輸入請病假的關鍵字，即可自動觸發請假系統新增單據，並通知單位主管。讓同仁得以較以往更便利的方式使用差勤系統。

輿情分析與網路社群口碑資料庫新應用

▲ 意藍資訊董事總經理楊立偉認為，技術的價值關鍵在於找到商業應用模式，本土廠商過去十多年來打下厚實的基礎，正可在行動裝置普及、社群媒體興起的時代，擴展更多應用模式，帶動整體的成長。

另一家也是本土老牌的中文搜尋引擎技術供應商龍捲風科技，自2007年併入意藍資訊後，成功地基於搜尋引擎、自然語言分析（NLP）已累積17年的技術能量，開拓出輿情分析與網路社群口碑資料庫新應用。

為了提升新詞學習效率，意藍資訊開始採用新的機器學習演算法，稱為無詞庫學習。意藍資訊董事總經理楊立偉自信地表示，「我們的無詞庫學習發展，可以說是本土廠商中最成功，因為我們所建立的無詞庫學習，主要是透過公開網路上所蒐集的大量『語料』或稱『語料庫』，從中學習上文與下文之間的關係。一段時間後，即可自行判斷最小可切割斷詞的組合單位。」

他進一步說明，過去對於新詞的學習方式比較偏重於以正規資料庫為基礎；現代所談的學習模式，則完全採用訓練方式，只要以大量的語料搭配演算法，即可建立主動辨識文字之間關係，以及最小組合字詞與意義，同時提升準確度。意藍資訊的輿情分析，每天在台灣的公開網路上「爬」回的資料量，大約近六十億個中文字，再透過演算法學習，才能在最快時間內學習到新的人名、熱門議題或事件等資訊。之後再透過已相當成熟的自動摘要技術，挑出重要的字詞與句子重新組合，來產生一篇具參考價值的文章。

就應用案例而言，最常見的是財務部門，每天需撰寫產業分析報告或投資分析報告，如今已可運用機器自動產出，或許文詞還不夠通順，但只要先自動產生出摘要後，再交由專業人力加以潤飾與修正，可能十分鐘即可完成，大幅提升產出效率。

另一種相當有助於提升商業價值的應用，即為文字情緒解析。畢竟網路上每天產生的文字量相當龐大，內含的正面、負面評價，或是無須處理的中立評價，機器都可以先行過濾，再透過機器學習演算法，發展出可自動根據文章上下文語意，判斷是正面與負面評價。

在斷詞與未知詞性的學習技術成熟後，接下來拓展的文字情緒解析，最大的挑戰即是演算法執行速度與精準度。前者必須仰賴軟硬體整合架構協助處理；後者則是基於大規模的語料讓機器持續學習，精準度才會逐漸提升。當然，機器學習演算法訓練的模型剛開始可能不夠準確，隨著每天持續增長的龐大資料量匯入，進步的速度實際上相當快。

「文字情緒解析如今已是意藍資訊社群口碑資料庫的核心，經過多年發展下，已經擁有超過九成的精準度。」楊立偉強調。因為客戶還會不斷地回饋分析結果的對或錯，機器會再進行回饋式學習，稱之為「加強式適應學習法」，如此一來即可進步快速，錯誤率變得相當低。

依據行業應用需求訓練立即可用的演算模型

其實意藍資訊最早的演算法核心技術，也就是搜尋引擎、語意分析引擎，本來只有提供引擎技術，之後為了再精進，才開始發展大規模蒐集台灣社群媒體的資料。楊立偉說明，最初蒐集社群資料並非計畫推出輿情分析，單純只為訓練自家演算模型，來提升精準度。但開始實作後發現，龐大的資料量源源不絕，語料庫也隨著持續更新，尤其是現在的網友稱讚或謾罵用語變化速度相當快，必須得跟上變化腳步，才得以理解文字內涵。

「擁有了引擎技術、語料庫之後，本來是打算以此為產品與服務銷售，讓客戶自行訓練演算模型。但實際接觸客戶後發現，大多期望取得已經訓練好的演算法模型，介接後立即可執行商務應用。因此才依據應用需求發展出情緒分析、文章自動摘要模型，甚至還有各種不同產業的文字分析模型，例如專門適用於過濾廣告信的文章、處理客服與客訴服務等已經過訓練的模型。」

現階段正在訓練的是金融業所需的語意分析模型。楊立偉舉例，網路上的社群媒體經常有網民爆料，可能直指特定公司的財務或法律出現危機，將面臨倒閉的風險，恐爆發罷工或勞動糾紛，對於銀行放款部門而言，根本無力如同記者時時關注社群媒體的言論，對此，即可運用語意分析引擎，來建立社群風險模型，自動從每天產出的六十億字數中，依據風險型態，可能是針對勞動、財務、經營層等方面，取出跳票、被起訴等攸關營運危機的關鍵字，整理成為可供放款部門參考的資料。