人工智慧 AI AI基礎架構 機器學習 ML 軟體框架

人工智慧落地產業應用 基礎架構攸關專案成敗

截AI優勢補企業競爭力 專用硬體發揮時效價值

2019-06-03
往AI邁進並不需要在一開始就投資大量的預算成本在AI硬體架構上,企業可以從小專案做起,再逐漸擴大。但是,企業需要在一開始就選定對的架構,許多企業在導入AI的過程中經常發生瓶頸,這些已導入的運算及儲存方案因為無法橫向擴展,使得企業無法持續進行。

 

人工智慧(AI)正在顛覆人們的生活與商業運作模式,企業期盼藉由AI來獲得更多資料價值,以因應數位化潮流下帶來的挑戰。但若就人工智慧的發展史來看,從1956年John McCarthy在達特茅斯學院的會議上確立人工智慧研究領域起算,人工智慧的發展至今其實已超過60年。在這數十年的演進中,人工智慧經過三次鐘型曲線,每一波崛起均帶來技術上的躍進,舉例來說,淺層深度學習(SVM、決策樹)興起自1980年左右,那時機器學習(ML)帶起第二波人工智慧高峰。

1993年後人工智慧明顯成長,受到運算力大幅起飛、演算法精進推動,再加上硬體如NVIDIA發展出CUDA提升深度學習的運算速度,使得AI一路成長。而後在深度神經網路(Deep Neural Network,DNN)、圖形處理器(GPU)以及大數據(Big Data)的結合下,更加速人工智慧在各行各業的應用。如今,人工智慧已然被視為創新營運的重要關鍵,多數企業期望藉由AI來取得關鍵的競爭力。

架構資源視應用模型而定

多年以來,人工智慧與資料、演算法以及運算力有著密不可分的關係,尤其當資料量愈龐大、訓練模型愈複雜,基礎架構規格的要求也愈高。中華電信研究院巨量資料研究所所長汪世昌認為,現今企業在談及AI議題時,關注的焦點多半是在機器學習領域分支的深度學習(DL)身上。由於深度學習需要處理大量非資料類型的資料,例如影像、語音等等,因此需要較大的運算與儲存資源,這也是傳統基礎架構很難支撐的原因。

舉例而言,要訓練一個100層的深度神經網路模型,若是單純只靠處理器來運算處理,運算力明顯不足,這時就必須運用NVIDIA Tesla P100或是Tesla V100之類的高階繪圖加速器來加以協助,尤其當資料量非常龐大時,可能還會需要多張高階繪圖加速器才夠使用,連儲存設備以及網路規格也都必須同步跟進。

中華電信研究院巨量資料研究所所長汪世昌認為,並不是所有人工智慧應用都需要非常強大的基礎架構,最終企業還是要從應用需求來考量。

「在許多AI專案中,並不是只跑幾次模型訓練就可以得到滿意結果,往往需要無數次的修正,當基礎架構資源不足,模型訓練更為費時,有時得跑上好幾天才能得到一次結果,若是專案有上數百次的模型訓練,可想而知,企業至少要花上數週或數月才有辦法完成專案。」他提到,面對現今分秒必爭的競爭態勢,即使企業招攬到好的人才,如果環境沒有同步跟上,也很難有好的產出,這也是為何在談到關於人工智慧應用時,大多會建議企業將運算、儲存以及網路的規格同步提升的原因,否則巧婦難為無米之炊。

但是,汪世昌也強調,並不是所有人工智慧應用都需要非常強大的基礎架構,最終企業還是要從應用需求來考量,有些應用需要多張高階繪圖加速器,有些應用則需要跨節點運算,即使是深度神經網路訓練模型,10層、50層以及100層所需的資源與規格也不相同,這些都需要視AI應用與訓練模型而定,例如模型訓練與模型推論所需要的資源本來就差距很大,如果限縮在模型訓練上,純粹資料類的模型訓練就相對單純,而影像辨識、語音辨識,需要的資源就會較高。

從AI特性思考企業應用

根據Gartner在近期發表的2019年CIO調查報告中指出,過去四年來,導入人工智慧的企業數量增長了270%,預估在今年將有37%的企業部署AI相關方案,遠高於2018年的25%。但即使如此,Pure Storage台灣區技術總監何與暉依然觀察到,台灣仍有不少企業根本不知從何著手、也不知道為何需要導入AI,企業之間只能互相學習,打探同業現在到底關心那些領域方案。

對此,Pure Storage全球技術長Alex McMullan認為,企業應該先對AI的好處與優勢有所理解,他提到,人工智慧非常適合拿來尋找模型、趨勢、矛盾或是不應該存在的東西,這是人工智慧的強項。若是從這個角度來看,醫療產業或者是醫療機構會有很好的起始點,因為台灣已推動電子病歷,更有助於提升醫療品質,像是在X光片上面進行腫瘤判讀等;而在金融服務業,就能用於金融風險的評估或是金融詐欺、金融詐騙的偵測,例如當有人一次申請非常多張的金融卡時,就顯得異常;另外針對全球都非常關心的資安議題,企業也能夠利用機器學習進行網路監控、提出警告或是偵測駭客等,對外不僅可進行資安防護,對內也可以抓出內鬼,降低資料外洩風險。

「但是,平心而論,任何一個成功的機器學習專案,機器學習往往只是這個計畫裡面的一小部分,深度學習也是如此。而前端最大的部分是在於收集資料以及如何清洗資料。一旦企業收集到資料而且是乾淨的資料,將其餵到機器學習的模型中,其實是一個很容易的步驟,目前市場上提供了AI專屬的架構方案,不管是Pure Storage或是NVIDIA提供的解決方案都可以讓模型訓練運行得非常順暢。」他提到,機器學習成功的關鍵在於判斷或使用哪一些乾淨的資料,而這些資料可以帶來或者是產生哪些價值。因此,企業不妨就先從一小區塊但是非常乾淨有價值的資料開始做起,等到專案成功時再將其往外擴大。

Pure Storage全球技術長Alex McMullan認為,機器學習成功的關鍵在於判斷或使用哪一些乾淨的資料,而這些資料可以帶來或者是產生哪些價值。因此,企業不妨就先從一小區塊但是非常乾淨有價值的資料開始做起,等到專案成功時再將其往外擴大。

Pure Storage台灣區技術總監何與暉則補充,往AI邁進並不需要在一開始就投資大量的預算成本在AI硬體架構上,企業可以從小專案做起,再逐漸擴大。但是,企業需要在一開始就選定對的架構,許多企業在導入AI的過程中經常發生瓶頸,這些已導入的運算及儲存方案因為無法橫向擴展,使得企業無法持續進行,這也是為何Pure Storage會在市場上推出AI-Ready基礎架構的原因,目的就是為了協助企業克服可能會遇到的瓶頸,避免產生孤島,更輕鬆地橫向擴展。

時效需求推動AI專屬架構

面對數位轉型,許多企業正在善用資料價值,致力於改善流程與客戶體驗,同時提高生產力。根據波士頓顧問公司(Boston Consulting Group)調查,愈來愈多的高階主管選擇採用人工智慧,用來創新產品、服務以及工作方式,以期擴展競爭優勢。儘管企業內部的人工智慧專案並不盡然是由IT發起,但IT的責任是提供適切的基礎架構,以因應現在與未來的需求,同時必須更快地將資料轉化為價值,因此,在架構的設計與規格評估上也面臨諸多挑戰。

台灣Dell EMC技術副總經理梁匯華指出,IT部門現今面臨較大的挑戰在於,在企業環境中既有存在的基礎架構並不是為了AI而生,而是為了運行VDI、電子郵件、ERP等核心應用而存在。當大量非結構化的資料需要進行儲存、分析,有各式AI軟體框架,現有的基礎架構很可能無法取得有意義的結果,他解釋,現今有不少企業認為,一定要有GPU的基礎架構才能運行AI,其實這個觀念並不一定正確,事實上,處理器也可以拿來跑軟體框架,但是當企業採用傳統架構時,很可能因為運算的時間過長,實現價值的速度(Time to Value)太慢,反而失去意義。

舉例而言,在製造業的機器視覺應用中,完成產線生產過程的影像拍攝後,需要在2秒內完成視覺判定,以便確定哪邊有瑕疵,再進行檢測。但是若以處理器來運算,可能三小時才能判別出來,「很顯然,這已經不具任何意義了,企業必須尋求一種新的方式,這也是為何AI在這幾年被NVIDIA帶動的原因,GPU能夠強化影像處理、加速運算,滿足Time to Value的要求,以便進行模型訓練或是推論等方面的應用。」他說。

AI在基礎架構的挑戰並不只於運算,儲存也存在不小的問題。在資料快速增長的時代,企業需要能夠快速處理大量資料並且從中進行分析的儲存架構,以往的作法是將資料存放在Hadoop上,但是有些軟體框架中並不能直接使用這些資料,使得企業需要將資料複製到其他的儲存環境,進行AI模型訓練。換言之,同樣的資料在企業環境中就會存在2份,如果考量資料的可用性,就必須存放到3份,而這還不包含人工智慧對於儲存效能的要求。

梁匯華提到,企業在執行AI的過程中,多半無法提早預估到未來AI會發展到何種規模,因此能否橫向擴充會是一個關鍵,如此企業在未來才能依據需求讓容量與效能同步提升。此外,單一命名空間(Single Namespace)能夠讓企業無需進行人工資料遷移的情況下,完成所有模型的訓練。這些都是IT在評估考量時,需要留意的細節。

AI旅程需要好的IA框架

台灣IBM大中華區系統與硬體事業群技術顧問劉泰興則認為,好的基礎架構框架可以加速AI旅程。AI並不單單只有硬體的基礎架構,而是要從「Architecture」的角度來思考,包含軟體定義的基礎架構、開放的平台以及軟體層面相關的配合,都會攸關AI基礎架構的適用性。

舉例而言,在許多AI基礎架構中都會應用到高階繪圖加速器,GPU與GPU之間會透過NVLink來提升傳輸速度,但是IBM的作法是將CPU與GPU之間也透過NVLink來進行傳輸,因此執行的速度更快。除了硬體之外,還需要軟體配合,例如支援TensorFlow、Caffe等深度學習框架,另外還要有專門搭配硬體的軟體來加以輔助,就以醫療產業的應用來說,在進行醫療影像AI的過程中,X光或是醫學影像的資料,以往都必須把影像分切成較小的檔案後,才可以進一步進行模型訓練,但是Large Model Support(LMS)可以不用侷限在GPU內建的記憶體,而可以使用到主記憶體,使得深度學習模型的訓練時間得以更為加速。 又例如,動態的橫向擴展可以讓企業更彈性地調整GPU資源,尤其是在分散式運用且多節點同時執行的情況下,能夠基於專案的需求,動態加入或是挪用資源,他提到,這些都是在專屬硬體設計上提供相對應的軟體所帶來的優化效益,而這也是IBM專為AI提供的基礎架構能夠具有更快的執行速度,同時產出更有價值成果的原因。

 


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!