當前各產業積極開展數位轉型計畫,但若欲借助國際間發展已日漸成熟的機器學習演算技術與人工智慧(AI)應用,讓既有的產品與服務得以更精確地因應需求市場的快速變異,首要必須先行解決技術落差與資料科學家難尋問題。
根據國家發展委員會(國發會)最新發布的「重點產業人才供需調查及推估」報告指出,AI的發展將帶來一系列新產品、商業模式、解決方案,相關應用的市場規模也正快速地成長中。報告中引述Statista的統計,2020年全球AI相關市場規模估計為225.9億美元,相較2019年的146.9億美元成長了53.8%,在此趨勢下持續發展至2025年,將成長至1,260億美元。
現階段AI應用的技術大致可分為電腦視覺、數據推理推論、移動控制、資料擷取與整理、自然語言處理等領域,將普遍成為製造、醫療、零售、金融等產業應用主流。問題是,應用蓬勃發展所帶動的AI人才需求缺口過大,儘管學術單位已增設相關課程、吸引學生入學,短時間仍難以解決人才短缺的情況,尤其是具有實作經驗的人才更是匱乏。如此情況下,勢必影響企業AI發展的進度,連帶影響到AI應用所能帶來的生產力提升、經濟成長落實的速度。
TIBCO(台灣堤巴克軟體)大中華區解決方案資深顧問于正之觀察,實際上AI應用所需的資料科學家人才,不僅是近幾年稀缺,長久以來皆為罕見的人才,只是過去稱為統計學家或數學家,每個企業都希望招聘到這類人才。近幾年面對國際市場競爭,企業欲借助AI之力提升競爭力,更是求才若渴,積極招聘相關人才與評估可輔助解決困境的解決方案,期盼能更加自主掌握技術來實現智慧化轉型。
機器學習與AI應用遍地開花
針對AI與機器學習應用的現況,根據甲骨文台灣區技術總監黃久安實際觀察接觸本土客戶的歸納,大致可分為兩類,其一是大量用於圖形模擬、影像辨識處理的機器學習,過去無法實現的應用,在GPU加持下已可成真。例如氣象局的氣象模擬估算天氣的變化,需要強大的運算力輔助,主要運用的是機器學習演算,藉由反覆迴歸的計算來達到預測性,過去得仰仗超級電腦等級才可實現,如今採用日漸普及的高效能運算伺服器(HPC)搭配GPU處理器已可達成。
他強調,現代GPU運算能力驅動了相當多應用,例如汽車產業評估車輛碰撞瞬間的防撞效果與造成損害狀況,通常是以影像模擬方式,運用相當多機器學習演算法。以前圖形化運算要用超級電腦等級才做得到,現在用多台x86電腦叢集即可達到相同效果,使得AI應用變得更加多元。
另一種是IT部門熟知的資料類型機器學習,過去探討多年的人工智慧,如今已廣泛落地。以前只有大型企業能招聘資料科學家來加以實現,而且應用情境大致固定,現在則是更廣泛應用,基於機器學習技術邏輯與價值的理解,開始延伸應用到更多場景。
前述提及的圖形模擬技術應用主要是製造業,至於金融業,可能採用圖學原理執行運算,例如保險公司的精算單位,也要利用特殊演算法來處理,圖學原理即為其中一種。黃久安指出,運用特殊演算法的專業領域,像是氣象模擬、車輛碰撞、保險精算等,必須由專業顧問團隊與解決方案供應商才有能力協助實作,基於新提出的演算法設計成為應用軟體,搭配強大運算力來實現。
反觀非特殊演算法的資料分析,則須結合產業知識,但複雜度相對較低,現階段這類型資料科學家人才較多,基於發展已相當成熟的技術工具,為應用場景增添預測性。流程通常是先行標註資料內容特徵,運用機器學習演算來判讀異同,進而預測下一步可能的模式。 總體來看,愈來愈多產業願意投入機器學習與AI應用,主要會運用在既有運算程度較高的領域,或者是讓技術已經相當成熟的資料分析領域,得以更深入探究商業價值。機器學習與AI應用可說已遍地開花,勢必會在各處結出豐碩的果實。
軟體工具演進輔助提升分析效率
為了降低企業客戶的資料科學學習門檻,讓不同知識與技術背景皆可運用機器學習與AI,市場上陸續出現新一代的解決方案,國際市調機構Gartner更於今年(2021)將此類方案劃分為DSML(Data Science and Machine Learning)平台。SAS台灣業務顧問副總經理陳新銓認為,主要來自進階分析(Advanced Analytics)的演進,用以實踐資料科學生命週期中的各種任務,例如理解營運環境、資料提取與準備、資料探索、特徵工程、建立模型、部署與維運等方面。
于正之說明,從過去的商業智慧(BI)、Hadoop大數據分析、自助式分析,演進到DSML,整體資料分析框架大致可區分為四個階段,即描述式分析、診斷式分析、預測式分析、處方式分析。描述式分析與診斷式分析屬於商業智慧範疇,自助式分析也較偏向診斷式分析,讓操作者從中挖掘洞察。預測式分析與處方式分析,則屬於AI領域。運用AI預測得到結論後,還必須要能夠提出解決問題的處方,正是當前資料科學的應用主軸。
就資料分析工具來看,于正之說明,大致區分為專門做資料可視化分析軟體,以及統計數值分析引擎的工具。資料可視化分析軟體是協助企業實作資料描述與診斷,使其轉換為圖形化,以儀表板方式呈現,或是產生出商業報表。這類軟體早期為商業智慧工具,產生出固定式報表,演化到提供自助式報表,進一步演進到資料科學領域,方式是增加支援Python與R程式語言,讓使用者自行建立可執行的分析報表,但是並非真正的資料科學運用工具,只是可擴展更多應用場景。
「真正的資料科學工具,也會有可視化分析能力,主要是為了數據重現之用,輔助選用多種類的演算法或機器學習模型,加快產生模型的速度。」于正之說。至於既有的統計數值分析引擎工具,演進方向是變得更易於上手,再加上現代資料科學所需的機器學習演算所需的開發語言,輔助資料科學家提升執行任務的效率。他指出,TIBCO兩種特性都具備,可相輔相成,讓資料科學家採用基礎的方式探索數據型態,有特別的想法時再換到高階的資料科學工具設計機器學習模型實作,得到的結果再運用可視化功能查看有效性,並回頭調整分析模型,如此循環之後逐步提升達到精準度。
他以客戶的實際案例說明,某本土製造業成立人工智慧辦公室,任務是蒐集生產線上所有感知器產生的資料,交給人工智慧辦公室的三名資料科學家,負責找出生產工作流程中良率的資料關聯性,建立最佳溫度分析模型。程式碼撰寫大約花費一個半月時間,嘗試運用多種不同機器學習演算法,找到最佳解答。但是採用TIBCO後,相同的來源資料只花費兩天時間,即可得到相同的解答。此即為典型的案例,採用工具可提高人工找到解答的效率,甚至較人工撰寫的程式碼,分析準確度更高,可快速地回答企業營運的提問,彰顯AI應用的價值。