IBM Cloud資深資料科學家薛翰指出,實作AI所需的平台來自不同技術領域所整合,Cloud Pak for Data平台上可隨需增減套件,整體架構主要是基於「AI階梯」的概念所設計,從底層往上依序為讓資料可簡單存取(Collect)、建立可信任的分析基礎(Organize)、採用機器學習技術獲得洞察(Analyze)、部署可信賴的AI驅動業務流程(Infuse),達到以數據建立現代化的快捷AI服務(Modernize)。
薛翰進一步說明,初期蒐集資料技術範疇包含資料庫、資料清洗工具、資料虛擬化。多數企業營運需求已建置單一功能類型資料庫,亟需建立中介區域,讓各種應用系統資料庫皆可互通,供前端應用服務以統一入口存取。著手第一階段Collect,主要在蒐集取得內部所有應用系統後端資料庫的Table(資料表),例如行銷、會計、製造等部門。第二階段Organize,用意是遵循標準化規範整理資料表欄位名稱,讓大家都可看懂,以便於取用所需的資料。例如高階管理層的目標是依據預測下一季度銷量的數據,決定廣告推廣族群與管道,此時即可基於可信任的分析基礎,讓相關部門取用易於理解的資料來提出報告,抑或是進行下一步的AI建模。
軟體工具搭配顧問服務逐步前行
前述提到AI階梯的Analyze、Infuse、Modernize階段,即為近來Gartner提出的DSML(Data Science and Machine Learning)平台所須具備的特性,建置讓資料科學家或其他技術背景的分析師可操作執行任務的環境。例如金融業委託研究學者執行信貸分析,須蒐集來自銀行核心系統預先組織完成的資料,並且經過標準化規範整理,再交由研究學者執行AI模型開發,運用Python語言,撰寫深度學習演算法。下一步是部署到前端應用系統,讓理財專員可藉此輔助判斷投資項目的風險等級。
Cloud Pak for Data擔任資料與AI建模平台,涵蓋統計分析必要的工具,輔助執行任務與部署。薛翰強調,「目前市場上難以找到如同IBM Cloud Pak for Data,可全面涵蓋底層資料基礎架構、資料科學方法論、部署產品或服務所需的相關技術平台,正是其優勢之所在。IBM本業除了具備軟體研發能力,另一方面是顧問服務,當我們協助銀行著手數位轉型時,即是基於前述AI階梯輔導實作。」
金融業核心關鍵系統主要採用IBM大型主機(Mainframe)所建置,大多會搭配顧問服務,以確保符合營業工作需求。從顧問的角度切入,設計提供的平台通用性較高,初期安裝建置時,無須預設啟用過多功能項目,而是隨著企業制定的AI應用戰略逐步執行,已經有明確的問題需要被解決時,再依據問題本質增添AI相關模組來輔助。底層資料基礎架構,經過Organize資料倉儲的梳理,當各部門用戶呼叫查詢時,才得以自主取得準確的資料內容。
薛翰舉例,當資料科學家收到工作任務,目標是預測下一季度的銷售,首先要撈取相關資料,通常資料科學家雖擁有建模的技能,卻難以準確地掌握資料內容的意義,或許可尋求業務部門協助提供,資料庫表格欄位的命名規則通常只是代號或縮寫,再加上不同應用場景皆有特定績效指標,即便資料科學家擁有深厚技術也不知從何著手,此時,就得協同領域專家共同合作,基於各自擅長的知識才有能力完成任務。
單一平台啟用不同角色所需的元件
資料科學家與領域專家採用的工具,主要是在Organize階段提供。先行釐清工作任務所需的特徵指標,才著手開發資料模型。每個垂直領域皆有需要被解決的難題,若非該領域的資深員工,恐難以明確地指出工作流程中的問題點。資料科學家開發模型後,進入部署階段,運用AIOps工作流程來執行,此外,AIOps環境採用工具輔助監看與維運模型,可提供前端操作介面的App即時分析資料。
「合適的資料科學平台,須可讓資料工程師、科學家、領域專家、開發者、AIOps操作者,皆可協同工作來執行日常任務。IBM Cloud Pak for Data單一平台上即可啟用不同角色所需的元件。」薛翰說。
近年來國內有許多新創公司發展特定用途模型例如網路廣告投放,主要是專注在開發與訓練模型,他指出,對於資料科學家而言,針對特殊用途建立新模型,難度不高,問題是蒐集資料與組織、理解、標注等工作,仍舊得運用工具來執行,才可降低人力梳理原始資料、撰寫程式碼的負擔。
運用AI來建置與訓練AI模型
為了要能夠達到預測的目的,企業發現過去各部門的應用系統後端資料庫根本無法整合,需要有資料治理的政策推動才可能實現。本土產業普遍面臨資料治理的障礙通常不是技術問題,而是各自為政的文化難以聚集所有資源,勢必得設立專責人員居中協調,並可藉由資料虛擬化機制,來打破各部門孤島藩籬。
Cloud Pak for Data提供的Watson Knowledge Catalog建立企業級知識目錄,以圖形介面列出資產名稱、描述、標籤、敏感級別等屬性,或以拓撲圖方式檢視業務術語、資料目錄、資料類型與Metadata關聯性。例如金融用戶可識別資訊,以身分證字號為主鍵值,對應的手機、生日等個資,以及客戶分群、信用卡詐欺分析等項目,讓資料工程師、資料科學家、業務單位等不同角色,皆可運用Cloud Pak for Data平台的資料來執行任務。
協助資料治理的工具是Watson Knowledge Catalog,進入分析階段則是負責開發的Watson Studio,搭配Watson Machine Learning部署工具,近年來自主發展AI的新創公司,即是藉由易於操作的工具,運用機器學習快速建立原型(Prototype),提出最小可行性產品。當AI上線運行後可藉由Watson OpenScale管理與維運模型,經由評比及微調模型追蹤效度,提供可解釋的AI輸出結果,貼近企業實際的績效指標。此外,Cloud Pak for Data平台已具備AutoAI能力,讓AI來建置與訓練AI,當資料餵入後,開始產生模型、部署應用,基於多種模型預測自動找出最佳演算法,不須再手動轉寫程式碼,藉由工具降低資料科學家門檻,協助找到資料更多價值。