現代資料科學的應用發展,從商業智慧範疇的描述式分析、診斷式分析,演進到人工智慧(AI)實現預測式分析、處方式分析,相關工具除了基本可視化分析能力,統計數值分析引擎亦不可或缺。
基於中介軟體(Middleware)起家的TIBCO,旗下的TIBCO Spotfire與TIBCO Data Science,具備前述兩種特性,讓資料科學家先以視覺化方式探索數據型態、特徵,複雜問題則可切換到高階的資料科學工具設計機器學習模型,無須自行撰寫Python或R程式語言,實現提高人工找到解答的效率與準確度。
TIBCO(台灣堤巴克軟體)總經理林祐成指出,硬體運算力與數據量的倍增,可說是資料分析工具演進的重要推手。以金融業來看,過去只有實體ATM與網路銀行,在金融科技的發展目標下,行動網銀、第三方支付等應用場景百花齊放,使得資料來源管道變多、變得更加即時,之所以有能力承載,主要因素是硬體資源能夠負荷,軟體工具才得以發揮,每天蒐集幾千萬筆資料量,可達到快速傳輸與運算,實際上是拜硬體所賜,軟體設計的操作介面得以更進一步提高易用性。
可視化分析預處理資料特徵
TIBCO過去推廣商業智慧軟體,主要需求客群大多是金字塔頂端,林祐成說明,十多年前進入台灣市場最早推廣的客群為製造業,後來才跨足到金融業,近幾年又增添超商龍頭、交通運輸業等。如今演進到AI世代,資料科學成為顯學,進階分析軟體才受到更多企業關注,主要是基於TIBCO Spotfire與TIBCO Data Science交叉運用,讓各式應用場景從科學數據中找到解答。
TIBCO大中華區解決方案資深顧問于正之說明,資料分析框架大致分為描述式分析、診斷式分析、預測式分析、處方式分析。描述式與診斷式分析歸類於商業智慧範疇,預測式與處方式分析,即為AI應用的實踐。
可視化分析對資料科學而言至關重要,藉此執行特徵工程(Feature Engineering)了解資料內容型態、特徵。大部分資料科學家會採用統計學的計算公式實作特徵工程,可是統計的特徵工程本身,抽出具有代表性的樣本資料有難度,因為對於數學公式來說,無法理解性別、地址、產品採購總額等數值的意義,只有具備領域知識的分析者可理解數位資料的關聯性。
運用TIBCO Spotfire可視化分析工具先進行特徵工程分析,才得以依據資料型態選擇演算法。接著便可採用TIBCO Data Science實作資料準備,也就是再執行一次特徵工程,進而選用多個機器學習演算分析,完成後進行模型的準確度驗證,挑選出最合適的演算模型,達到預測式分析的能力。
即時分析提出解決問題處方
欲進一步達到處方式分析階段,必須有能力建立即時分析。前述說明運用TIBCO Data Science建立模型之後,開始部署到線上營運的關鍵應用系統,執行程序產生的相關資料可拋送到TIBCO Streaming串流分析工具,運用前述模型即時評估操作行為的風險值,于正之以銀行業為例說明,一旦被判讀有85%為盜刷風險則立即凍結帳戶,此即稱為處方式分析。也就是說,除了建立與部署模型,還必須具備解決問題的能力,才可完整地協助企業整體營運。
TIBCO近期的實際案例是台灣零售業龍頭,建立機器學習模型的目的,是為了即時地掌握全台灣門市銷售狀況與訂單,估算採購貨物的數量以便配送到各地門市。在門市提出訂單時,可即時地進行信用評等,來決定商品的折扣幅度,萬一信用評等顯示為高風險,則直接停止出貨。
此外,TIBCO Spotfire可視化分析工具擁有易於上手的特性,同樣適合第一線部門員工用來查看工作流程中產生的資料內容。TIBCO Data Science則是輔助資料科學家執行任務,首要必須具備數理背景的工程師,或者是商學院的人員,藉由工具來降低門檻。具有領域知識背景的人,不見得是IT專家,現代化工具已經內建許多常見的演算法,第一線員工有機會經過教育訓練,說明資料準備階段須先運行特徵工程、分類,再套用演算法,基礎概念具備後,即可運用工具來實現。
「採用工具輔助首要是為了降低學習門檻,讓商業用戶也得以有機會執行分析,其次是提高工作效率,無須撰寫程式,圖形化介面上拖拉放即可完成機器學習Pipleline。與其搶奪稀缺的資料科學家,不如借助成熟的商業工具力量輔助內部培育人才,特別是能夠理解資料內容意涵的第一線員工,如此才可真正解決營運問題。」于正之說。
工具輔助讓一般員工也可操作分析
過去人工開發數學模型,可能只是解決特定領域的單一事件,或許還足以因應。凌群市場暨產品行銷事業群總處長楊宏祥觀察,隨著物聯網應用逐漸擴展後,蒐集的資料量較以往倍增,已不再是人工建立數學模型可以解答問題。TIBCO等資料分析工具的大廠,近年來開始把長期在企業客戶累積的經驗,逐漸增添內建到工具,並且讓操作介面變得更直覺,降低進入門檻,讓業務、會計等部門,即使不具備工程背景亦可運行資料科學分析。
從近年來新創公司、國際商業軟體大廠發展趨勢即可發現,工具的進化,主要用意是讓不同領域知識的員工得以用來輔助商業決策,可推動企業整體營運朝向智慧化發展。進化過程中不見得是技術上的突破,更多屬於歸納整理應用需求,例如內建普遍採用的演算模型,讓操作者無須重新學習,藉由易於上手的工具輔助,可快速地掌握商業分析的解答,進而提高營運效能。
企業各個部門工作者所掌握的領域知識更是資料分析關鍵要素,軟體工具僅可依據特定產業的通用規則研發,但是通常無法完整適應每家企業的工作流程,一旦遇到需要調整之處,往往必須仰賴原廠提供客製化服務。楊宏祥強調,如今的資料科學分析工具,主要目標是讓具備領域知識的工作者運用,快速地產生出演算模型。林祐成以實際參與本土IC設計大廠的專案舉例,TIBCO加入概念驗證是協同該企業的領域專家共同建立分析模型,或許剛開始得投入較多人力成本,隨著分析模型的精準度逐漸提升,才可實際解決既有難以突破的困境。