外接儲存消除資料孤島 彈性擴增AI效能容量

2024-08-08
AI已經成為企業快速投入的技術之一,然而無論在企業內或雲端,傳統基礎架構技術正面臨複雜且僵化的問題,過去企業傾向自己動手建置,卻也因此可能產生意料之外的硬體費用,而複雜的AI軟體也可能讓開發人員的工作時間,大量地消耗在軟體堆疊工程、故障排除及優化上。

隨著生成式AI(GenAI)技術的快速迭代演進,AI就緒(AI Ready)的基礎架構也有了更進一步的發展,例如在今年的NVIDIA GTC 2024大會中,儲存供應商紛紛與NVIDIA合作並推出全新應用於企業內部環境的一站式GenAI基礎架構方案,以協助企業利用資料釋放生成式AI的潛力。Pure Storage也是其中之一,在既有的AI就緒基礎架構AIRI//S之上,加入了新的驗證設計及概念驗證,例如整合NVIDIA NeMo Retriever微服務,以協助企業打造檢索增強生成(RAG)流程,解決大型語言模型必須經常重新訓練的需求。

此外,也通過NVIDIA OVX Server Storage驗證,藉由這項驗證,企業將能快速地選擇適合的儲存與NVIDIA認證的OVX伺服器配對,以解決IT團隊因為漫長而複雜的基礎架構部署週期,而無法使用企業內部資料快速投入AI創新的挑戰。

模組化架構 效能容量自由擴展

Pure Storage大中華區技術總監何與暉指出,AI已經成為企業快速投入的技術之一,其不僅能提供關鍵商業洞見,還能加速創新並協助企業取得競爭優勢。然而無論在企業內或雲端,傳統基礎架構技術正面臨複雜且僵化的問題,過去企業傾向自己動手建置,卻也因此可能產生意料之外的硬體費用,而複雜的AI軟體也可能讓開發人員的工作時間,大量地消耗在軟體堆疊工程、故障排除及優化上。

他提到,AI需要一種全新的基礎架構來加快創新速度,建立可操作的現代化資料分析,而AIRI//S正是這樣的AI就緒基礎架構方案,其整合了最新的NVIDIA DGX系統、NVIDIA網路及Pure Storage FlashBlade//S,能滿足AI資料流程所有階段的需求。

舉例而言,GPU運算需要搭配高效能儲存才能最大化系統吞吐量,但是RAG的應用不只要滿足效能要求,還要有彈性擴充容量的能力,這是因為RAG是運用向量資料庫來提高擷取相關文件的效率,換言之,資料是以向量的方式存在多個維度中。根據Pure內部測試發現,資料向量化後,所需的容量很可能會超出原來的10倍之多。這也是為何,AIRI//S會將NVIDIA DGX系統以及Pure Storage FlashBlade//S結合的原因,FlashBlade//S是一套能將儲存的運算與存容量分離的模組化架構,能夠自由的擴展容量與效能,其專利的全QLC架構,不需昂貴的快取解決方案,就能提供兼具最高效能與最佳化容量。

而且FlashBlade//S是一款適用於檔案及物件工作負載的整合式高效能儲存平台,不管是檔案或物件結構的讀取,都能滿足RAG場景所需要的文件格式或是想要輸出的格式。「節能減碳也非常重要,」何與暉指出,協助企業落實ESG永續,儲存廠商也責無旁貸,在滿足AI需求、空間需求的同時,提供較少的碳足跡以及較低的能耗也非常重要。

創新功能加值 Pure Fusion儲存池最佳化

除了硬體架構的整合之外,Pure Storage在近期也推出多項創新功能,舉例而言,專為AI設計的全新Evergreen//One,提供保證的儲存效能,讓GPU有能力支援訓練、推論及高效能運算(HPC)工作負載,而企業只需要實際支付所需的效能,免除預先規劃或超額配置的情況;Pure Fusion則能瞬間整合陣列並實現儲存池最佳化,同時容納企業地端及雲端的結構化與非結構化資料。

另外,AI Copilot可以透過自然語言來管理及保護資料。這項功能運用來自數萬家客戶的真實經驗,逐步引導團隊調查複雜的效能與管理問題,進而預先防止資安事件發生;而針對勒索軟體攻擊,去年已提供勒索軟體的SLA,以協助企業在遭受攻擊後在最快的時間點復原,今年則改名為Cyber Recovery and Resilience,涵蓋勒索軟體和一般災難復原場景。

AIRI//S是一款完整的AI基礎架構解決方案,已取得NVIDIA DGX BasePOD參考架構認證。

何與暉進一步說明,Evergreen//One是Pure Storage很重要的精神與精髓,好處是讓企業可以在未來的三年、五年、七年,甚至是十年、二十年都可以持續不斷的使用這項產品,而且還可協助企業節省成本,眾所周知,打造AI基礎架構通常要先準備一筆不小的預算,無可避免地軟體與硬體都是企業須支付的成本。但是企業只要善用Evergreen//One這個儲存即服務(STaaS)訂閱方案,AIRI//S雖然會部署在企業內部的資料中心內,但概念上卻是Pure Storage向企業租用了資料中心,假設是企業的容量需求是50TB,配置起來是6U,Pure Storage就會計算每一U的用電量,以及樓地板空間的費用換算回來給企業。

「至於Pure Fusion的優勢是可以把所有的Pure Storage的儲存設備全部集結在一起,如此一來,企業就等於擁有了一個非常大的儲存池,」他提到,企業可以定義不同的工作負載,依據所需的IOPS、頻寬(Bandwidth)來配置合適的儲存空間。設定好規則後,使用者就可以選擇這些規則來自動配置。

生成式AI考驗儲存設計能力

根據Gartner研究調查,到了2028年,75%擁有生成式AI訓練數據的組織將部署單一儲存平台來儲存數據,2024年這麼做的比例只佔了10%。原因是生成式AI的工作流程的要求太過多樣化,大規模的生成式人工智慧部署將需要獨特的儲存效能和資料管理能力。

何與暉坦承,一開始的參考架構設計確實沒有很鼓勵使用者額外購買外部儲存設備,原因是GPU伺服器已經具備不小的儲存空間,舉例而言,一台NVIDIA DGX-1就搭載了近8TB的SSD,然而隨著AI技術與應用的快速演進,企業需要多台GPU伺服器來提供大量算力,但是存放在伺服器SSD內的資料僅能提供給該台GPU伺服器使用,而無法橫跨其他GPU伺服器,等同形成了資料孤島,這也是為何將資料存放在外部儲存設備會成為趨勢的原因,若非如此,莫說是大型語言模型的訓練,就連檢索增強生成(RAG)都很難實現。

此外,許多的AI應用都執行在容器環境上,如何結合Kubernetes容器管理、安全的分租共用,以及政策治理工具,以便讓企業營運關鍵資料與AI叢集之間的進階資料整合,也是企業基礎架構未來必須跟進之處。

「其實,一站式的AI基礎架構相當考驗儲存方案供應商,」他提到,這是因為AI應用非常廣泛,在不同階段對資料的要求也都不相同,可能某個階段需要讀取的速度很快,但下個階段需要的是快速寫入,到了另一階段則要求要快速讀取大檔,在正常的情況下,沒有一台儲存設備能夠滿足如此多樣化的需求,即便能夠滿足,效能的表現也可能不如預期,如何兼顧不只是儲存方案供應商的課題,也是企業在採購前應該衡量的因素之一。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!