伴隨著機器學習技術的突破,透過機器學習來提升競爭力已成為企業必修的議題。過去是配角的資料,在機器學習的世界裡扮演了關鍵的角色,在建模的過程中訓練資料集與模型準確率有著絕對的關係,如何快速取得足夠且高品質的資料便成為重要的課題。
一直以來,資料的管理與架構總是跟隨著每個應用系統與分析工具。隨著應用越來越多,除了造成管理上的困難,也讓各應用系統間的資料共享顯得不方便。過去透過集中化與共享對資料中心進行優化,以達到複雜度的減少與資源的有效運用。而透過平台化將資料集中管理也不是一個新的觀念,但是在新的需求上,資料平台(Data Platform)必須具備新的面貌:
‧格式的多樣性:新應用中收集與分析來自物聯網、社群媒體與多種格式的資料。這些資料會隨著各式需求而有不同的格式,優雅的關聯式資料庫與嚴謹的正規化在時間、成本與架構上已無法滿足現代的需求。
‧數量的不確定性:過往的資料分析著重在業務資料(Transaction Data),而業務資料可依據業務的成長而進行預估。但是在新的分析需求中會收集大量的外部資料、感測器資料與各式的日誌檔(Machine Log)等來進行進階的分析,以找出更多的商業價值。因此容量的彈性擴充與依用量計費成為不可或缺的模式。
‧開放的應用程式介面(API):面對進階的分析需求與快速的業務步調,資料科學家勢必借助合宜的分析工具解決各式的問題。因此支援多樣的資料存取介面,讓資料科學家在工具選擇上享有更多的彈性進而更專注在業務的價值。
‧多元的部署方案:當分析走向以資料為核心,以商業價值為目的時,技術架構與部署方式就必須依據資料的特性來進行設計。在地理上可能會依據資料的來源放在不同的場域、邊緣運算的節點甚至是公有雲,在效能上也須依據不同的分析需求在資料的生命週期中存放在不同的儲存媒體。
‧全域的資料目錄:資料在實體是多元的部署,但是在運用上必須是能夠共享以創造整體價值,因此須具備全域的資料目錄讓資料科學家可以方便地進行資料分類與查找。
一直以來,資料分析都扮演著重要的角色,然而隨著洞察資料價值成為提升競爭力的重要利器,資料平台便須從一個輔助者走向企業運行的核心。一個核心的系統除了在效能上必須及時提供結果以在快速變化的環境中回應市場,同時在資料安全上在滿足各方的分析需求的同時必須也遵守安全治理的規範,畢竟資料安全的議題除了是企業對資料保護的責任更是企業競爭力的核心。
<本文作者:范欽輝現為HPE慧與科技技術規劃處副總經理。>