為期四天展期的2023台北國際電腦展(Computex 2023)已於6月初圓滿閉幕,毫無疑問,AI智慧高效運算在今年搶盡了風頭,尤其是在加速運算領域,NVIDIA創辦人暨執行長黃仁勳在開幕主題演講中揭露了多項最新動態,包含DGX GH200人工智慧超級電腦、搭載NVIDIA最新資料中心晶片Grace Hopper的全新系統,以及提供給系統製造商模組化參考架構的NVIDIA MGX伺服器規格等等。
他在活動中也提到,Grace Hopper架構GH200超級晶片現已開始量產,這款超級晶片最大特色在於其結合了基於Arm架構的NVIDIA Grace CPU與NVIDIA Hopper GPU於同一電路板上,以省去傳統PCIe CPU與GPU連線的需求,根據NVIDIA官方資料,運用NVIDIA NVLink-C2C互連技術的設計,不只將頻寬大幅提升了7倍,互連功耗也降低5倍以上。
而DGX GH200人工智慧超級電腦則是運用了NVLink互連技術以及NVLink Switch System連接了256個GH200超級晶片,可提供1-Exaflop效能、144TB共用記憶體的超級算力,更適用於大型推薦系統、生成式人工智慧、推薦系統和資料分析。相較於2020年推出的DGX A100系統,記憶體容量增加了近500倍。
黃仁勳強調,很多人覺得用NVIDIA GPU打造的AI伺服器很昂貴,事實上採用GPU將可以讓企業「買越多、省越多」。他以一個大型語言模型(LLM)的訓練成本分析為例指出,倘若訓練一個LLM需要960顆CPU組成的伺服器叢集來完成,相關的建置成本可能需要花費1,000萬美元,並且耗費1.1GWh的電力,但若是改用GPU,只需要2顆GPU的AI伺服器就能完成LLM的訓練,建置成本僅40萬美元,電力也只需0.13GWh。若是在同樣的電力條件下,由172個GPU組成的伺服器叢集雖然要價3,400萬美元,但訓練大型語言模型的速度卻高達CPU伺服器叢集的150倍。這樣算起來,其實是買越多、省越多的概念。
液冷方案解散熱課題
於Computex期間,黃仁勳也旋風式地力挺合作夥伴,不僅幫雲達(QCT)站台、參觀技嘉展場,還在美超微的Computex主題演講中現身。雲達展出了第一台運用NVIDIA MGX架構搭配NVIDIA Grace Hopper超級晶片的超大規模HPC-AI伺服器;技嘉則展示了支援NVIDIA Grace Hopper超級晶片的H263-V11,以及能夠在5U體積內搭載8個HGX H100的G593-SD0;而美超微(Supermicro)則展示了搭載NVIDIA Grace CPU超級晶片的ARS-221GL-NR系統、HGX H100 8 GPU系統驅動的SYS-821GE-TNHR。
除了AI伺服器外,從各家展場所展示的解決方案不難看出,如何解決散熱問題仍是各家鎖定的焦點。像是雲達在展場中也展示名為QCT QoolRack的水冷式機櫃,主要是利用冷卻液分配單元(CDU)以及風扇式散熱背門,有效排除高效能伺服器所產生的熱,在不改變現有資料中心基礎設施的前提下,達成永續目標。Supermicro也展出完整機櫃級液冷解決方案,能大幅度降低對傳統冷卻方法的需求,強調由於可熱插拔電源供應器和泵浦都有備援設計,因此即使在電源供應器或泵浦故障時,整個機架中高效執行的AI和HPC優化伺服器也能得到有效冷卻。該解決方案還使用針對CPU和GPU的訂製水冷板(Cold Plate),在去除熱能方面比傳統設計更高效。
今年,技鋼科技也展出三款浸沒式冷卻液槽,除了25U的EIA冷卻槽、18 OU的OCP單相浸沒式液冷槽外,還有一組可容納12U的EIA冷卻槽,提供初期試驗、研究或無大型機房空間可運用的企業用戶選擇。
另外,營邦(AIC)也推出液體冷卻解決技術,其採用混合式散熱方式,以封閉式迴路及低沸點的液體取代主機板的散熱器,同時容納多個系統風扇,從而節省空間、改善氣流並降低噪音。
結合材料科學落實ESG永續概念
此外,為了因應資料中心減少碳排、永續運算的趨勢,營邦也與AMD及中鋼合作,採用AMD處理器提高伺服器能源效率,並藉由中鋼的優質鋼材與經UL認證的再生材料設計伺服器機箱,實現節能永續的產品設計以履行企業社會責任與永續發展的策略方向。
營邦指出,中鋼所生產的伺服器專用鍍鋅鋼材是伺服器機殼的重要原料,營邦的伺服器機殼與零組件等都採用了中鋼的高品質鋼材產品。中鋼在製程中注重節能減碳,採用高效率的環保設備和技術,積極減少排放並強化污染物處理,將回收比例從之前的12%提升至20%以上,均通過UL 2809驗證,除保證鋼材原有優異性能外,對減少碳排和落實環境保護具有重要意義。
中鋼公司營業銷售處銷售第五組組長林俊廷解釋,環保需要成本,這次合作其實是在煉鋼時投入比較高比例的廢鋼,雖然會多一些煉鋼的成本,從整體的生命週期來看,對節能減碳是有助益的。他提到,歐盟碳邊境調整機制(CBAM)即將在10月試行,因為伺服器在材料生產時就降低了碳排放量,某種程度上等於是幫企業增加競爭力。「伺服器機殼看起來雖然平常,但其實對鋼材要求很嚴格,現在做出來的成品轉折處都沒有裂痕,可說極不容易。如果手上有金屬不銹鋼名片就可以拿來試驗,隨便一折就會裂掉。永續減碳的伺服器背後,是對煉鋼的高標準。」
伺服器精銳盡出
除了AI伺服器外,今年各家展場其實也都精銳盡出,不管是在雲端、儲存或是5G∕智慧邊緣應用,都持續提供多元且創新的伺服器。以美超微為例,今年也展出包含SuperBlade、GrandTwin以及邊緣伺服器SuperEdge在內的多款伺服器。其中,SuperBlade為刀鋒伺服器,主要搭載第4代Intel Xeon可擴充處理器,其特色在於採用共用的備援元件(包括冷卻、網路和電源和機箱管理),透過更少的實體佔用空間,充分運用完整伺服器機櫃的運算效能。與產業標準伺服器相比,減少了高達95%的佈線,可降低成本並減少功耗。
而GrandTwin專為單處理器效能而設計,可搭載單顆第4代Intel Xeon可擴充處理器或第4代AMD EPYC處理器,彈性的模組化設計可輕鬆適應各種應用,能根據需要新增或移除元件,有助於降低成本。同時具有前置(冷通道)熱插拔節點,可設定使用前置或後置I/O,以便於維護。而SuperEdge在短機身的2U外型尺寸中提供三個可熱插拔的單一處理器節點,每個節點都支援熱插拔並提供前置I/O,同時透過靈活的乙太網或光纖連接選項到BMC,可讓企業根據其部署環境輕鬆選擇遠端管理。
隸屬神達集團,神雲科技旗下伺服器品牌TYAN(泰安)也在Computex 2023展示多款最新的高性能運算、雲端運算以及儲存伺服器平台。在加速運算和AI推論應用上,也有Thunder HX FT65T-B7130、Thunder HX FT65T-B5652以及Thunder HX TS75A-B7132等伺服器展出。其中,FT65T-B7130及FT65T-B5652均可轉換為機架安裝的直立式伺服器平台,以作為桌邊HPC工作臺使用,非常適合在對噪音相對敏感的辦公環境中使用。另外,TS75A-B7132是一款2U雙路伺服器平台,支援32組DDR5 RDIMM插槽和5個PCIe 5.0插槽,是高性能記憶體運算和虛擬化應用的理想選擇。
比較特別的是神雲在現場也展出以Open Rack V3架構開發出兩款Capri2 CP2S11與Goldstone GS1D01的OCP伺服器,善用Open Rack V3將其Power Shelf改為48V直流電後,能減少電源匯流排能量損失。Capri2 CP2S11相容於Open Rack V2與V3架構,不僅支援最新AMD EPYC 9004系列處理器,使用者可加裝雙寬GPU卡即可滿足最基本的AI應用運算。而Goldstone GS1D01支援雙路最新第四代Intel Xeon可擴充處理器,並配置32個DIMM插槽,針對大容量儲存的需求提供了理想的運算平台。