熱門活動精彩回顧都在這

截AI優勢補企業競爭力　專用硬體發揮時效價值

2019-06-03

余采霏

往AI邁進並不需要在一開始就投資大量的預算成本在AI硬體架構上，企業可以從小專案做起，再逐漸擴大。但是，企業需要在一開始就選定對的架構，許多企業在導入AI的過程中經常發生瓶頸，這些已導入的運算及儲存方案因為無法橫向擴展，使得企業無法持續進行。

人工智慧（AI）正在顛覆人們的生活與商業運作模式，企業期盼藉由AI來獲得更多資料價值，以因應數位化潮流下帶來的挑戰。但若就人工智慧的發展史來看，從1956年John McCarthy在達特茅斯學院的會議上確立人工智慧研究領域起算，人工智慧的發展至今其實已超過60年。在這數十年的演進中，人工智慧經過三次鐘型曲線，每一波崛起均帶來技術上的躍進，舉例來說，淺層深度學習（SVM、決策樹）興起自1980年左右，那時機器學習（ML）帶起第二波人工智慧高峰。

1993年後人工智慧明顯成長，受到運算力大幅起飛、演算法精進推動，再加上硬體如NVIDIA發展出CUDA提升深度學習的運算速度，使得AI一路成長。而後在深度神經網路（Deep Neural Network，DNN）、圖形處理器（GPU）以及大數據（Big Data）的結合下，更加速人工智慧在各行各業的應用。如今，人工智慧已然被視為創新營運的重要關鍵，多數企業期望藉由AI來取得關鍵的競爭力。

架構資源視應用模型而定

多年以來，人工智慧與資料、演算法以及運算力有著密不可分的關係，尤其當資料量愈龐大、訓練模型愈複雜，基礎架構規格的要求也愈高。中華電信研究院巨量資料研究所所長汪世昌認為，現今企業在談及AI議題時，關注的焦點多半是在機器學習領域分支的深度學習（DL）身上。由於深度學習需要處理大量非資料類型的資料，例如影像、語音等等，因此需要較大的運算與儲存資源，這也是傳統基礎架構很難支撐的原因。

舉例而言，要訓練一個100層的深度神經網路模型，若是單純只靠處理器來運算處理，運算力明顯不足，這時就必須運用NVIDIA Tesla P100或是Tesla V100之類的高階繪圖加速器來加以協助，尤其當資料量非常龐大時，可能還會需要多張高階繪圖加速器才夠使用，連儲存設備以及網路規格也都必須同步跟進。

中華電信研究院巨量資料研究所所長汪世昌認為，並不是所有人工智慧應用都需要非常強大的基礎架構，最終企業還是要從應用需求來考量。

「在許多AI專案中，並不是只跑幾次模型訓練就可以得到滿意結果，往往需要無數次的修正，當基礎架構資源不足，模型訓練更為費時，有時得跑上好幾天才能得到一次結果，若是專案有上數百次的模型訓練，可想而知，企業至少要花上數週或數月才有辦法完成專案。」他提到，面對現今分秒必爭的競爭態勢，即使企業招攬到好的人才，如果環境沒有同步跟上，也很難有好的產出，這也是為何在談到關於人工智慧應用時，大多會建議企業將運算、儲存以及網路的規格同步提升的原因，否則巧婦難為無米之炊。

但是，汪世昌也強調，並不是所有人工智慧應用都需要非常強大的基礎架構，最終企業還是要從應用需求來考量，有些應用需要多張高階繪圖加速器，有些應用則需要跨節點運算，即使是深度神經網路訓練模型，10層、50層以及100層所需的資源與規格也不相同，這些都需要視AI應用與訓練模型而定，例如模型訓練與模型推論所需要的資源本來就差距很大，如果限縮在模型訓練上，純粹資料類的模型訓練就相對單純，而影像辨識、語音辨識，需要的資源就會較高。

從AI特性思考企業應用

根據Gartner在近期發表的2019年CIO調查報告中指出，過去四年來，導入人工智慧的企業數量增長了270%，預估在今年將有37%的企業部署AI相關方案，遠高於2018年的25%。但即使如此，Pure Storage台灣區技術總監何與暉依然觀察到，台灣仍有不少企業根本不知從何著手、也不知道為何需要導入AI，企業之間只能互相學習，打探同業現在到底關心那些領域方案。

對此，Pure Storage全球技術長Alex McMullan認為，企業應該先對AI的好處與優勢有所理解，他提到，人工智慧非常適合拿來尋找模型、趨勢、矛盾或是不應該存在的東西，這是人工智慧的強項。若是從這個角度來看，醫療產業或者是醫療機構會有很好的起始點，因為台灣已推動電子病歷，更有助於提升醫療品質，像是在X光片上面進行腫瘤判讀等；而在金融服務業，就能用於金融風險的評估或是金融詐欺、金融詐騙的偵測，例如當有人一次申請非常多張的金融卡時，就顯得異常；另外針對全球都非常關心的資安議題，企業也能夠利用機器學習進行網路監控、提出警告或是偵測駭客等，對外不僅可進行資安防護，對內也可以抓出內鬼，降低資料外洩風險。

「但是，平心而論，任何一個成功的機器學習專案，機器學習往往只是這個計畫裡面的一小部分，深度學習也是如此。而前端最大的部分是在於收集資料以及如何清洗資料。一旦企業收集到資料而且是乾淨的資料，將其餵到機器學習的模型中，其實是一個很容易的步驟，目前市場上提供了AI專屬的架構方案，不管是Pure Storage或是NVIDIA提供的解決方案都可以讓模型訓練運行得非常順暢。」他提到，機器學習成功的關鍵在於判斷或使用哪一些乾淨的資料，而這些資料可以帶來或者是產生哪些價值。因此，企業不妨就先從一小區塊但是非常乾淨有價值的資料開始做起，等到專案成功時再將其往外擴大。

Pure Storage全球技術長Alex McMullan認為，機器學習成功的關鍵在於判斷或使用哪一些乾淨的資料，而這些資料可以帶來或者是產生哪些價值。因此，企業不妨就先從一小區塊但是非常乾淨有價值的資料開始做起，等到專案成功時再將其往外擴大。

Pure Storage台灣區技術總監何與暉則補充，往AI邁進並不需要在一開始就投資大量的預算成本在AI硬體架構上，企業可以從小專案做起，再逐漸擴大。但是，企業需要在一開始就選定對的架構，許多企業在導入AI的過程中經常發生瓶頸，這些已導入的運算及儲存方案因為無法橫向擴展，使得企業無法持續進行，這也是為何Pure Storage會在市場上推出AI-Ready基礎架構的原因，目的就是為了協助企業克服可能會遇到的瓶頸，避免產生孤島，更輕鬆地橫向擴展。

時效需求推動AI專屬架構

面對數位轉型，許多企業正在善用資料價值，致力於改善流程與客戶體驗，同時提高生產力。根據波士頓顧問公司（Boston Consulting Group）調查，愈來愈多的高階主管選擇採用人工智慧，用來創新產品、服務以及工作方式，以期擴展競爭優勢。儘管企業內部的人工智慧專案並不盡然是由IT發起，但IT的責任是提供適切的基礎架構，以因應現在與未來的需求，同時必須更快地將資料轉化為價值，因此，在架構的設計與規格評估上也面臨諸多挑戰。

台灣Dell EMC技術副總經理梁匯華指出，IT部門現今面臨較大的挑戰在於，在企業環境中既有存在的基礎架構並不是為了AI而生，而是為了運行VDI、電子郵件、ERP等核心應用而存在。當大量非結構化的資料需要進行儲存、分析，有各式AI軟體框架，現有的基礎架構很可能無法取得有意義的結果，他解釋，現今有不少企業認為，一定要有GPU的基礎架構才能運行AI，其實這個觀念並不一定正確，事實上，處理器也可以拿來跑軟體框架，但是當企業採用傳統架構時，很可能因為運算的時間過長，實現價值的速度（Time to Value）太慢，反而失去意義。

舉例而言，在製造業的機器視覺應用中，完成產線生產過程的影像拍攝後，需要在2秒內完成視覺判定，以便確定哪邊有瑕疵，再進行檢測。但是若以處理器來運算，可能三小時才能判別出來，「很顯然，這已經不具任何意義了，企業必須尋求一種新的方式，這也是為何AI在這幾年被NVIDIA帶動的原因，GPU能夠強化影像處理、加速運算，滿足Time to Value的要求，以便進行模型訓練或是推論等方面的應用。」他說。

AI在基礎架構的挑戰並不只於運算，儲存也存在不小的問題。在資料快速增長的時代，企業需要能夠快速處理大量資料並且從中進行分析的儲存架構，以往的作法是將資料存放在Hadoop上，但是有些軟體框架中並不能直接使用這些資料，使得企業需要將資料複製到其他的儲存環境，進行AI模型訓練。換言之，同樣的資料在企業環境中就會存在2份，如果考量資料的可用性，就必須存放到3份，而這還不包含人工智慧對於儲存效能的要求。

梁匯華提到，企業在執行AI的過程中，多半無法提早預估到未來AI會發展到何種規模，因此能否橫向擴充會是一個關鍵，如此企業在未來才能依據需求讓容量與效能同步提升。此外，單一命名空間（Single Namespace）能夠讓企業無需進行人工資料遷移的情況下，完成所有模型的訓練。這些都是IT在評估考量時，需要留意的細節。

AI旅程需要好的IA框架

台灣IBM大中華區系統與硬體事業群技術顧問劉泰興則認為，好的基礎架構框架可以加速AI旅程。AI並不單單只有硬體的基礎架構，而是要從「Architecture」的角度來思考，包含軟體定義的基礎架構、開放的平台以及軟體層面相關的配合，都會攸關AI基礎架構的適用性。

舉例而言，在許多AI基礎架構中都會應用到高階繪圖加速器，GPU與GPU之間會透過NVLink來提升傳輸速度，但是IBM的作法是將CPU與GPU之間也透過NVLink來進行傳輸，因此執行的速度更快。除了硬體之外，還需要軟體配合，例如支援TensorFlow、Caffe等深度學習框架，另外還要有專門搭配硬體的軟體來加以輔助，就以醫療產業的應用來說，在進行醫療影像AI的過程中，X光或是醫學影像的資料，以往都必須把影像分切成較小的檔案後，才可以進一步進行模型訓練，但是Large Model Support（LMS）可以不用侷限在GPU內建的記憶體，而可以使用到主記憶體，使得深度學習模型的訓練時間得以更為加速。又例如，動態的橫向擴展可以讓企業更彈性地調整GPU資源，尤其是在分散式運用且多節點同時執行的情況下，能夠基於專案的需求，動態加入或是挪用資源，他提到，這些都是在專屬硬體設計上提供相對應的軟體所帶來的優化效益，而這也是IBM專為AI提供的基礎架構能夠具有更快的執行速度，同時產出更有價值成果的原因。