統一資料科學協作平台　AI階梯方法論落實預測

2021-06-22

洪羿漣

運用機器學習（ML）與人工智慧（AI）驅動的企業營運戰略，已逐漸成為產業轉型的重要目標，藉此深入洞察與及時回應市場需求。IBM Cloud Pak for Data平台整合異質元件的底層資料基礎架構，以及應用開發的方法論，讓資料科學家與IT維運人員協作，建立MLOps工作模式，讓團隊在單一平台開發、執行、部署以發揮價值。

IBM Cloud資深資料科學家薛翰指出，實作AI所需的平台來自不同技術領域所整合，Cloud Pak for Data平台上可隨需增減套件，整體架構主要是基於「AI階梯」的概念所設計，從底層往上依序為讓資料可簡單存取（Collect）、建立可信任的分析基礎（Organize）、採用機器學習技術獲得洞察（Analyze）、部署可信賴的AI驅動業務流程（Infuse），達到以數據建立現代化的快捷AI服務（Modernize）。

薛翰進一步說明，初期蒐集資料技術範疇包含資料庫、資料清洗工具、資料虛擬化。多數企業營運需求已建置單一功能類型資料庫，亟需建立中介區域，讓各種應用系統資料庫皆可互通，供前端應用服務以統一入口存取。著手第一階段Collect，主要在蒐集取得內部所有應用系統後端資料庫的Table（資料表），例如行銷、會計、製造等部門。第二階段Organize，用意是遵循標準化規範整理資料表欄位名稱，讓大家都可看懂，以便於取用所需的資料。例如高階管理層的目標是依據預測下一季度銷量的數據，決定廣告推廣族群與管道，此時即可基於可信任的分析基礎，讓相關部門取用易於理解的資料來提出報告，抑或是進行下一步的AI建模。

軟體工具搭配顧問服務逐步前行

前述提到AI階梯的Analyze、Infuse、Modernize階段，即為近來Gartner提出的DSML（Data Science and Machine Learning）平台所須具備的特性，建置讓資料科學家或其他技術背景的分析師可操作執行任務的環境。例如金融業委託研究學者執行信貸分析，須蒐集來自銀行核心系統預先組織完成的資料，並且經過標準化規範整理，再交由研究學者執行AI模型開發，運用Python語言，撰寫深度學習演算法。下一步是部署到前端應用系統，讓理財專員可藉此輔助判斷投資項目的風險等級。

Cloud Pak for Data擔任資料與AI建模平台，涵蓋統計分析必要的工具，輔助執行任務與部署。薛翰強調，「目前市場上難以找到如同IBM Cloud Pak for Data，可全面涵蓋底層資料基礎架構、資料科學方法論、部署產品或服務所需的相關技術平台，正是其優勢之所在。IBM本業除了具備軟體研發能力，另一方面是顧問服務，當我們協助銀行著手數位轉型時，即是基於前述AI階梯輔導實作。」

金融業核心關鍵系統主要採用IBM大型主機（Mainframe）所建置，大多會搭配顧問服務，以確保符合營業工作需求。從顧問的角度切入，設計提供的平台通用性較高，初期安裝建置時，無須預設啟用過多功能項目，而是隨著企業制定的AI應用戰略逐步執行，已經有明確的問題需要被解決時，再依據問題本質增添AI相關模組來輔助。底層資料基礎架構，經過Organize資料倉儲的梳理，當各部門用戶呼叫查詢時，才得以自主取得準確的資料內容。

薛翰舉例，當資料科學家收到工作任務，目標是預測下一季度的銷售，首先要撈取相關資料，通常資料科學家雖擁有建模的技能，卻難以準確地掌握資料內容的意義，或許可尋求業務部門協助提供，資料庫表格欄位的命名規則通常只是代號或縮寫，再加上不同應用場景皆有特定績效指標，即便資料科學家擁有深厚技術也不知從何著手，此時，就得協同領域專家共同合作，基於各自擅長的知識才有能力完成任務。

單一平台啟用不同角色所需的元件

資料科學家與領域專家採用的工具，主要是在Organize階段提供。先行釐清工作任務所需的特徵指標，才著手開發資料模型。每個垂直領域皆有需要被解決的難題，若非該領域的資深員工，恐難以明確地指出工作流程中的問題點。資料科學家開發模型後，進入部署階段，運用AIOps工作流程來執行，此外，AIOps環境採用工具輔助監看與維運模型，可提供前端操作介面的App即時分析資料。

「合適的資料科學平台，須可讓資料工程師、科學家、領域專家、開發者、AIOps操作者，皆可協同工作來執行日常任務。IBM Cloud Pak for Data單一平台上即可啟用不同角色所需的元件。」薛翰說。

近年來國內有許多新創公司發展特定用途模型例如網路廣告投放，主要是專注在開發與訓練模型，他指出，對於資料科學家而言，針對特殊用途建立新模型，難度不高，問題是蒐集資料與組織、理解、標注等工作，仍舊得運用工具來執行，才可降低人力梳理原始資料、撰寫程式碼的負擔。

運用AI來建置與訓練AI模型

為了要能夠達到預測的目的，企業發現過去各部門的應用系統後端資料庫根本無法整合，需要有資料治理的政策推動才可能實現。本土產業普遍面臨資料治理的障礙通常不是技術問題，而是各自為政的文化難以聚集所有資源，勢必得設立專責人員居中協調，並可藉由資料虛擬化機制，來打破各部門孤島藩籬。

IBM Cloud資深資料科學家薛翰認為，讓IT著手知識目錄的整理工作，未必可精準地掌握資料的意義，最好的做法是營運部門團隊中有領域專家與IT人員協同工作，逐步地依據領域特性指標整理資料，以便建立模型運行分析。

Cloud Pak for Data提供的Watson Knowledge Catalog建立企業級知識目錄，以圖形介面列出資產名稱、描述、標籤、敏感級別等屬性，或以拓撲圖方式檢視業務術語、資料目錄、資料類型與Metadata關聯性。例如金融用戶可識別資訊，以身分證字號為主鍵值，對應的手機、生日等個資，以及客戶分群、信用卡詐欺分析等項目，讓資料工程師、資料科學家、業務單位等不同角色，皆可運用Cloud Pak for Data平台的資料來執行任務。

協助資料治理的工具是Watson Knowledge Catalog，進入分析階段則是負責開發的Watson Studio，搭配Watson Machine Learning部署工具，近年來自主發展AI的新創公司，即是藉由易於操作的工具，運用機器學習快速建立原型（Prototype），提出最小可行性產品。當AI上線運行後可藉由Watson OpenScale管理與維運模型，經由評比及微調模型追蹤效度，提供可解釋的AI輸出結果，貼近企業實際的績效指標。此外，Cloud Pak for Data平台已具備AutoAI能力，讓AI來建置與訓練AI，當資料餵入後，開始產生模型、部署應用，基於多種模型預測自動找出最佳演算法，不須再手動轉寫程式碼，藉由工具降低資料科學家門檻，協助找到資料更多價值。