GenAI落地不能只重硬體 資料治理是成功基礎

2024-08-06
面對全球AI浪潮,運用AI加速轉型已成企業刻不容緩的議題。然而,HPE近期發布的《構建人工智慧優勢(Architect an AI Advantage)》報告中卻發現,儘管全球對AI的投資與日俱增,但企業卻過度自信而忽略了影響AI應用效果的關鍵領域,包含較低的資料成熟度、網路與運算配置的潛在缺陷,以及倫理與法規遵循等考量。

調查結果指出,雖然企業認同資料管理是應用AI的關鍵,但僅有7%企業可以即時將資料推送/擷取,以作為創新或增加營收之用。此外,也只有26%的受訪企業已建立資料治理模型,施行進階分析。事實上,僅有不到六成的企業能夠在取用(59%)、儲存(57%)到處理(55%)、復原(51%)等關鍵環節一路處理好資料,且比例還不斷遞減。

認知和實際之間的落差,同樣也出現在端到端AI生命週期的運算和網路要求。表面上看來,企業信心十足,高達93%的IT主管認為公司內的網路基礎架構能支援AI流量,而84%認為他們的系統在運算能力有足夠的靈活性,可以因應AI生命週期不同階段的獨特需求。然而,卻只有不到一半的受訪者表示,能夠完全了解訓練、優化和推理等各種AI工作負載需求。

HPE數位科技服務事業處總經理劉士毅指出,缺乏整合所導致的AI技術複雜性將為企業帶來諸多風險和阻礙,HPE設計一站式私有雲AI解決方案的目的,即是為了協助企業加速實現GenAI,因此在整個設計架構中許多環節都已經為企業設想,包含資料管道的處理、資料安全與資料治理都被考量在內。

模型運算資料三元素完整GenAI平台

與NVIDIA合作,HPE宣布推出NVIDIA AI Computing by HPE產品組合,而Private Cloud AI是其中的核心產品之一。這項解決方案深度整合了NVIDIA AI運算、網路與軟體以及HPE AI儲存、運算和HPE GreenLake雲端平台深度整合的解決方案。除了提供完整的AI基礎架構堆疊,包括NVIDIA Spectrum-X乙太網路、HPE GreenLake for File Storage,以及支援NVIDIA GPU的HPE ProLiant伺服器之外,在軟體堆疊方面,也整合了NVIDIA AI Enterprise軟體平台(包括NVIDIA NIM推論微服務)以及可與NVIDIA AI Enterprise和NVIDIA NIM互補的HPE AI Essentials軟體。

此外,針對維運管理,OpsRamp也已與HPE GreenLake雲端平台整合,可為所有HPE產品和服務提供觀測性和AIOps功能。HPE技術規劃處副總經理范欽輝指出,完整的生成式AI平台應該包含模型、運算以及資料三個元素,雖然檢索增強生成(RAG)在企業端算是較成熟的應用,但是別忘了,早幾年企業也應用了不少深度學習模型,甚至透過微調讓這些模型更具備企業特質,因此生成式AI平台必須能夠支援多樣貌的AI技術,對此HPE也提供四種適合不同AI工作負載及使用案例的配置,以因應企業推論、RAG或是微調等不同的應用需求。

在算力方面,Private Cloud AI支援主要還是會以NVIDIA GPU為主,不過由於不同應用對GPU的效能需求也會不同,HPE會依據定義好的工作負載,進行更合適的搭配。而在資料方面則會有兩個面向,首先在元件方面,由於資料處理在GenAI和深度學習中非常重要,特別是GPU的效能已越來越快,若是資料跟不上,很可能導致GPU的效能完全無法發揮的情況;而深度學習還有資料版本控管的需求,建模過程中每個不同的階段對於資料的存取模式也會有所不同,有些需要大量讀取,有些則是在短時間內要寫入很多資料,因此HPE GreenLake for File Storage已通過NVIDIA DGX BasePOD認證,就是希望為企業提供更好的組合去建立技術堆疊。

第二個面向是資料的使用,HPE Private Cloud AI搭配Data Pipeline軟體,可協助企業在管理模型時,能知道該模型資料來源,以及在建模的過程中,每個階段和資料之間的關聯為何。他提到,不管是深度學習或GenAI的基礎架構其實都是由多個元件組合而成,包含運算、儲存、網路還有上面開發的模型與模型的管理,因此這個預建置、經過驗證的架構,讓企業可以更快速地上線。

資料處理成企業最大課題

隨著人工智慧的工作負載不斷呈現指數級的增長,對基礎架構的需求也隨之攀升。在AI技術的快速演進下,早期只要在自家伺服器安裝一兩張GPU卡就能著手AI應用的時代已經一去不復返了,劉士毅認為,企業若是想要走在主流的道路上發展企業應用,現今的共識是先把AI導入到企業環境,從內部打造數位助理提高生產力,而後再針對特定的應用提供給外部的客戶服務。

原因是,早期試行AI的環境並不大,不同部門採購幾張GPU卡各自訓練自己的資料即可,然而這樣的作法依然會造成資料孤島,而且由各單位招聘各自的AI工程師,這樣的規劃也不太符合效益。比較可行的作法,應該打造一個資料平台,多數大型的企業已經有資料湖、資料平台的概念,目的就是為了把資料做好。

HPE數位科技服務事業處總經理劉士毅指出,HPE在整個設計架構中許多環節都已經為企業設想,包含資料管道的處理、資料安全與資料治理都被考量在內。左為HPE技術規劃處副總經理范欽輝。

「在上述提到的三個元素中,模型最不容易訓練,所以多會仰賴開源模型,而基礎架構則有HPE提供,但是資料處理就必須由企業自行解決。而這也是在AI施行過程中,企業覺得最痛苦的事情,當專案越來越多,資料管理的處理也越重要。」他以金融場景為例說明,某銀行打算進行AI專案,希望可以多方應用發展,所以有些做RAG、有些應用在防洗錢,有些則應用於精準行銷,一開始可能只有三個AI專案進行,而後每年遞增,兩三年後可能有十幾個AI專案,倘若沒有好的工具,很可能就會出現混亂,這也是為什麼在AI應用的背後,不能沒有資料治理方案的原因。AI落地不能只看重硬體,當每筆資料被寫來寫去,有沒有加密,由誰來管理,都要清楚,實務上還是要有人能維護資料,包含資料的安全與資料的治理。

劉士毅最後強調,AI轉型勢必會推動IT預算的支出,不同企業面對不同的應用需求,投入的預算都會不同,但是除了預算之外,人才也面臨不小挑戰。「很多企業連資料工程師都找不到,更不用說資料科學家。」儘管AI應用現今在浪頭上,也有不少人才湧入,但要找到可以直接給企業使用的人才還需要一點時間,「接下來人才會是最大的斷層,如果沒有好的人才做資料工程或資料科學之類的工作,基本上就很難採用微調的技術,而會選擇RAG的方式,最終也會影響到預期實現的目標。HPE之所以會打造資料平台的原因正是考量了這些因素,不管是小型企業或是大型企業,都可以輕鬆地依據需求來加以部署。」


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!