AI伺服器效能散熱兩不誤 水冷機櫃Side Car就位

2024-07-02
根據調研機構Gartner最新預測,2024年全球人工智慧(AI)半導體總收入預估將達到710億美元,較2023年增長33%。Gartner研究副總裁Alan Priestley認為,生成式AI正在推動資料中心對高效能AI晶片的需求,在2024年,伺服器中所使用的AI加速器的總價值將達到210億美元,預估到了2028年,將增加至330億美元。

從今年台北國際電腦展(COMPUTEX 2024)上,也可感受到這股動能需求,除了AI晶片之外,展會上的另一看點就是AI伺服器,OEM與ODM廠商無不卯足全勁,可謂百花齊放。除了搭載Intel Xeon 6、AMD Instinct MI325X的伺服器外,也有多款模組化參考設計的NVIDIA MGX展示。不過最吸睛的,還是NVIDIA最新發表的GB200 NVL72,這座搭載36個NVIDIA GB200 Grace Blackwell Superchip的整機櫃解決方案,主要是透過900GB/s超低功耗NVLink晶片間互連將兩個NVIDIA B200 Tensor Core GPU連接到NVIDIA Grace CPU。換言之,單一機櫃便有72個Blackwell GPU和36個Grace CPU。

NVIDIA GB200 NVL72其實是一款結合多節點與液冷的整櫃式方案,適用於運算最密集的工作負載。機櫃內還包含了NVIDIA BlueField-3資料處理單元,可在超大規模AI雲端中實現雲端網路加速、可組合儲存、零信任安全性和GPU運算彈性。與相同數量的NVIDIA H100 Tensor Core GPU相比,GB200 NVL72對於LLM推理工作負載的效能提升高達30倍,並將成本和能耗降低高達25倍。

包含華碩(Asus)、技嘉科技(Gigabyte)、英業達(Inventec)、鴻佰科技(Ingrasys)、雲達科技(QCT)以及美超微(Supermicro)等廠商都在展會中秀出實機展示。由於NVIDIA GB200 NVL72的多節點可以選擇2U伺服器或是1U伺服器不同的配置,在展會現場,這兩種不同的配置方式都有展出。不過,如果是2U伺服器的系統架構的話,須兩櫃的整機櫃才能配置到72個GPU。

NVIDIA GB200 NVL72成為展會最吸睛的AI整櫃式解決方案,包含華碩(Asus)、技嘉科技(Gigabyte)、英業達(Inventec)、鴻佰科技(Ingrasys)、雲達科技(QCT)、美超微(Supermicro)等等,均有實機展示。

AI散熱 液氣混合運用趨勢明確 

如同Arm基礎設施事業部行銷副總裁Eddie Ramirez在COMPUTEX 2024生成式AI新賽局論壇中的演說內容,隨著AI日漸風行,應用範圍涵蓋健康照護、零售、專業服務乃至於製造業等各種領域,持續增長的AI工作負載,也將大幅增加能源消耗。不只如此,越是強悍的晶片,熱設計功耗(TDP)也會越高,屆時散熱將會是未來的另一項課題,也是NVIDIA GB200 NVL72最終會採用液冷散熱設計的原因。

值得留意的是,雖然往年在Computex展會中也有針對高功耗或高密度機櫃需求,推出後門熱交換器(Rear Door Heat Exchanger,RDHx)、冷卻液分配裝置(Cooling Distribution Units,CDU)或是浸沒式冷卻(Immersion Cooling)的散熱解決方案,但今年在AI加持下,很明顯地更為聚焦,尤其單一GB200超級晶片的TDP最高已來到2,700W,未來單一晶片的TDP更可能突破1,000W以上,場會中也有多家展示出Side Car散熱方案,突顯出液氣混合運用趨勢將更為明確。

技嘉大秀超級運算叢集、AI伺服器、綠色運算技術 

隨著大型語言模型(LLM)來到「兆級參數」境界,技嘉現場除了NVIDIA GB200 NVL72系統外,也展出機櫃級AI解決方案GIGA POD,其主要是透過叢集運算集結數百顆加速器的算力,以縮短AI運算的時間。這款涵蓋交換機、網路設備、運算節點的一站式叢集運算解決方案,可支援NVIDIA的HGX B100、HGX H200以及GH200 Grace Hopper超級晶片,並依企業需求提供靈活彈性的配置,企業可以選擇9櫃42U機櫃可安裝4部AI伺服器的配置,或是5櫃48U機櫃裝載8部AI伺服器的配置。

技嘉於現場展示多款次世代AI伺服器。

處理器的TDP僅有100~200W的日子已經一去不復返了,整合某種形式的液體冷卻來加速散熱設計也正在快速地發酵中,技嘉在今年也展示了液體冷卻、後門熱交換器及浸沒式冷卻等三種冷卻技術,以協助改善資料中心的電力使用效率(PUE)。其中,後門熱交換器是首度展示,而直接液體冷卻伺服器機架可適用於AMD、英特爾和NVIDIA的伺服器,冷卻液分配裝置(CDU)的合作夥伴則包含了CoolIT Systems以及Motivair。

技嘉展出機櫃級AI解決方案GIGA POD。

另外,展會上也展示多款AI伺服器,包含以NVIDIA MGX模組化設計為基礎的全新的X系列伺服器,可搭配NVIDIA高效能GPU、高速Bluefield-3 DPU及ConnectX-7 NIC乙太網路介面卡,企業可挑選AMD EPYC或Intel Xeon的x86架構CPU,或是NVIDIA Grace Hopper的Arm架構超級晶片。還有最頂規的旗艦AI伺服器G593系列,可同時搭載NVIDIA次世代晶片H200、B100,亦有為支援AMD MI300X而設計的型號。

技嘉整合先進的冷卻解決方案,圖為液體冷卻及後門熱交換器(RDHx)冷卻技術。

美超微傳達綠色運算概念,不只免費還有額外紅利

「綠色運算可以是免費的,還有額外的紅利。」這是美超微(Supermicro)創辦人暨總裁梁見後在今年Computex展想要傳達的重要概念。而這個概念的主要基礎就是直接液體冷卻(DLC),其可以直接用室溫的水提供伺服器最好的冷卻,對比氣冷所需要耗費的大量電力,成本將會低很多,若是相較於氣冷或冷卻空調方案,DLC最高可以節省40%的電力支出,而且還可以節省大量的二氧化碳排放,讓地球更綠化。他認為,直接液體冷卻的伺服器方案將很快成為主流,過去30年Supermicro的直接液冷解決方案市占率不到1%,而未來的一年內,目標是拿下15%的市佔率。

因此,今年在展場上,也可以看到美超微展示多款液冷機種,其中也包含可立即部署的液冷型AI資料中心。此資料中心專為雲端原生解決方案而設計,透過SuperCluster加速各界企業對生成式AI的運用,並針對NVIDIA AI Enterprise軟體平台最佳化,適用於生成式AI的開發與部署。另外,也展出4U液冷機種可搭載NVIDIA近期推出的Blackwell GPU並且充分發揮20 PetaFLOPS的AI效能。

美超微宣布推出機櫃級AI SuperCluster以及採用液冷設計的SuperBlade刀鋒伺服器。

現場也展示NVIDIA GB200 NVL72機櫃(具有72個透過NVIDIA NVLink交換器互連的GPU)與新型NVIDIA MGX系統(支援NVIDIA H200 NVL PCIe GPU與最新發表的NVIDIA GB200 NVL2架構),以及多款氣冷伺服器方案。美超微強調,隨著大型語言模型(LLM)的快速發展以及Meta的Llama-3和Mistral的Mixtral 8x22B等開源模型不斷推出,企業更容易取得並使用當今最先進的AI模型。簡化AI基礎設施並以最具成本效益的方式提供存取能力,對於支援目前的快速AI變革至關重要。

AI風暴來襲三巨頭相挺 QCT提供多元運算方案

廣達電腦旗下雲達科技(QCT)在Computex展中,接連獲NVIDIA執行長黃仁勳、AMD董事長暨執行長蘇姿丰以及Intel執行長Pat Gelsinger(基辛格)到場參訪,並揭露雙方在AI與資料中心的相關進展,足以顯見雲達與三大晶片巨頭緊密的合作關係。 展會現場展示了採用NVIDIA GB200 Grace Blackwell超級晶片的NVIDIA MGX系統,以及氣冷和水冷的NVIDIA HGX B100 and B200平台,還有一座配備72顆GPU的NVIDIA MGX機櫃。其中,QuantaGrid D75B-1U和QuantaGrid D75B-2U都是採用NVIDIA GB200 Grace Blackwell超級晶片的NVIDIA MGX架構伺服器,每18台D75B-1U或D75B-2U可以透過NVIDIA NVLink交換機系統以及電纜盒來實現GPU和交換機的互連,藉此擴展為NVIDIA GB200 NVL72。這兩台伺服器也都採用QCT直達晶片水冷技術,不僅能因應最新超級晶片的高熱設計功率(TDP),也能完全實現NVIDIA Blackwell GPU的潛力。

應對AI風暴,雲達推多元解決方案。

此外,雲達也同時展出採用第4代AMD EPYC處理器的QuantaGrid S44NL-1U與QuantaGrid D44N-1U,以及支援AMD Instinct MI300X加速器的QuantaGrid D74A-7U。隨著AI風暴的出現,有越來越多公司需要將AI融入自家業務,專為包括生成式AI及大語言模型等巨型AI模型打造的QuantaGrid D74A-7U採用了最新AMD EPYC 9004系列處理器的7U伺服器,支援AMD UBB 2.0通用基板,配備8顆GPU和業界標準的HGX主機連接器,也適用於先進科學運算所需的HPC工作負載。

而為了支援各種資料中心工作負載,確保多種企業和邊緣運算應用的可靠性,並提供優異的性價比,現場也秀出支援Intel Xeon 6處理器的系統包括QuantaGrid D55X-1U、QuantaGrid D55Q-2U、QuantaGrid S55R-1U,以及高密度多節點伺服器QuantaPlex S25Z-2U和QuantaPlex S45Z-2U,還有QCT QuantaGrid D74H-7U。

其實,在模組化概念設計下,不少伺服器都具有能容納不同廠商GPU的彈性設計,QCT QuantaGrid D74H-7U也是如此,其GPU sled和Intel Gaudi 3 AI加速器基板規格相容,每張基板上可放置八張Intel Gaudi 3 AI加速器的OAM夾層卡,形成一個模組化次系統,更容易放進D74H-7U系統內。由於每張通用基板擁有超過1TB HBM容量以及29.6TB/s HBM頻寬,因此能在生成式AI的訓練和推論上都達到最先進的效能,同時還可利用開放、符合業界標準的乙太網路將系統從一個節點擴展至上千個節點,兼具彈性和容量。

隨著ESG永續課題在國際間形成浪潮,Intel執行長Pat Gelsinger到場參訪時,除了為自家伺服器站台外,同時也對雲達的高效水冷散熱方案「QoolRack」抱以高度興趣。展場中的QoolRack是液態對氣態水冷機櫃,可提供到120kW散熱效果,特別適合運用在高功耗整機櫃方案,以作為散熱的解決方案。

泰安創新設計助力各式HPC、原生雲運算與生成式AI工作負載

隸屬神達集團,神雲科技旗下伺服器通路領導品牌TYAN(泰安)也緊跟著晶片巨頭展出多款伺服器。在AMD EPYC伺服器方面,除了Transport HX UT85A-B8267可搭載8個AMD Instinct MI300X加速器,適用於AI和HPC基礎架構的8U高度雙路伺服器之外,也展示出專為提升HPC和深度學習性能設計的2U雙路GPU伺服器Transport HX TN85-B8261以及4U直立式單路GPU的Transport HX FT65T-B8050。

泰安展出多款搭載第六代Intel Xeon處理器全新伺服器。

而為滿足當今企業對雲端運算伺服器必須具有卓越的可擴展性、可靠性、效能、能源效率、虛擬化支援以及強大的網路連接能力的要求,TYAN也展出一款2U多節點伺服器Transport CX TD76-B8058,其配備4個前置服務節點,非常適合高密度資料中心部署、前端網頁伺服器以及各種擴展應用。而另一款緊湊型的解決方案Transport CX GC68C-B8056採取1U單路設計,是一款高性能且節省空間的產品。

針對第六代Intel Xeon處理器伺服器平台,現場也展示了兩款搭載第六代Intel Xeon處理器的全新雙路伺服器。其中,TX86-E7148(代號Katmai Pass)是接續英特爾D50DNP系列伺服器的下一代型號,專為高性能計算和AI工作負載量身打造,這款產品在2U機架空間內可容納高達4個計算模組,並同時支援氣冷和液冷兩種散熱技術,適用於各種不同機房基礎架構。而TX77A-E7142(代號Deer Creek Pass)則是英特爾M50FCP系列伺服器的接續機型,具備功能齊全、性能優化的特點,非常適用於處理密集型資料的應用環境。

另外,還有專為大規模AI和HPC平行運算負載所設計的4U雙路伺服器Thunder HX FT83B-B7149、適用於本地邊緣運算和高性能儲存應用的1U單路伺服器Thunder CX GC73A-B5660以及單路AI伺服器主機板Tempest HX S5662。

微星CXL記憶體擴展伺服器 重新定義高效能運算

雖然是較晚才跟進AI伺服器,但微星(MSI)正在加快腳步,今年Computex展中,微星也攜手超微、三星和美光等CXL技術巨擘,共同推進該領域未來發展,以滿足大規模AI模型訓練和高效能運算應用需求。

微星展示結合了風流配置和液冷內循環技術,在高負載條件下也能良好運行。

全新亮相的CXL記憶擴展伺服器S2301,定位資料密集型工作負載和內存記憶體資料庫優化,配有雙路第四代AMD EPYC系列處理器,搭配8個E3.S 2T CXL記憶體硬碟裝置再加上8個E3.S 1T的NVMe硬碟裝置,S2301伺服器記憶體容量就能擴展到高達8TB等級。

另一款搭載單路AMD EPYC 9004系列處理器的G4101則結合了風流配置和液冷內循環技術。一般的液冷設計就像是人體的外循環,通常會有管線從伺服器接出來,再透過CDU,然後與資料中心的冷卻水塔形成一個完整的冷卻系統,而內循環的原理則是讓水冷的管線走在處理器上,然後再藉由風扇把熱排出去,冷卻後的水會回到處理器,也因為這樣的設計,在高負載條件下也能良好運行。

微星指出,很多企業的痛點是,並不是所有的資料中心都有外循環的液冷配置,而結合風流配置和液冷內循環技術的好處是,一方面可以減少噪音,而另一方面,因為有液冷的協助,風扇就不需要不停的強力運轉,因此就可以降低耗電量。而且,又不需要高昂的維護成本,因為單台放在機櫃中,就跟一般的伺服器沒有兩樣,就算是新一代AMD EPYC 9005 Turin CPU一樣也能適用。 而在Intel Xeon 6處理器方面,微星也推出三款伺服器。這些新品中,CX170-S5062和CX270-S5062都同樣採用DC-MHS的主機板外型架構及DC-SCM2模組設計,支援雙路處理器、32組DDR5 RDIMM插槽和1個PCIe 5.0 x16 OCP NIC 3.0網路擴充槽,可在AI推論等應用中提供優異效能。另外,CX271-S3066為一款主流2U單路伺服器,提供至多24個2.5吋U.2 NVMe硬碟設備,適用於全快閃儲存應用及一般型工作負載。

佈局AI伺服器 華碩展NVIDIA GB200 NVL72

華碩今年在Computex展會上也展出NVIDIA GB200 NVL72系統,並且在會場上也細部拆解說明機箱內部設計。

華碩今年在Computex展會上也展出NVIDIA GB200 NVL72系統,並且在會場上也細部拆解說明機箱內部設計。

NVIDIA GB200 NVL72主要是搭載36個NVIDIA GB200 Grace Blackwell Superchip的整機櫃解決方案,而NVLink Switch的功能是把運算插槽(Computer Tray)都串接在一起。基於散熱需求NVIDIA GB200 NVL72採水冷的設計,並且會搭配兩座Side Car進行冷熱交換。

華碩現場展示的設計是採1U高度的伺服器,而單一運算匣(Compute Tray)會有兩組GB200,由於每一個GB200超級晶片會有一個Grace處理器與兩個Blackwell GPU,因此一個運算匣就會有2個處理器跟4個GPU。而一個機櫃中總共有18個運算匣,所以GPU的總數是72。

由於是採用水冷設計,在晶片的上方會有水冷板(Cold Plate),下方則接有兩條水冷管,負責冷水進、熱水出。從散熱作法來看,NVIDIA GB200 NVL72搭配Side Car其實是液態對氣態(Liquid-to-Air)的解決方案,Side Car的原理主要是藉由風扇吹出的風流把冷卻水的熱帶走,但是一台Side Car最高只能解75kW的熱,因此需要兩台Side Car的配置。

除此之外,華碩也展示搭載Intel Xeon 6處理器的RS700-E12和RS720-E12系列,透過硬體設計的微調,提供更高效能並解決功耗增加的挑戰,同時也採用模組化設計以實現更有效率的主機板佈局和可維護性。

鎖定次世代AI數據中心 鴻佰全方位佈局

鴻海集團旗下鴻佰科技於2024年臺北國際電腦展上,以「引領AI新運算」為主題,展示次世代AI數據中心全方位解決方案。除了亮相最新的NVIDIA GB200 NVL72伺服器機櫃之外,展出先進液冷解決方案,包含液態對氣態的Side Car氣冷機櫃以及液態對液態的CDU液冷機櫃—In-Row CDU。通常液態對液態的散熱機制能比液態對氣態的解熱能力還要來得高,In-Row CDU最高可以解熱1,300kW,對比Side Car,解熱能力可謂一台抵多台。不過,液態對液態的CDU通常需要與機房內部的冷卻水塔或冰水主機搭配,選擇Side Car或In-Row CDU,最終還是得考量資料中心內是否有相關的配置。

鴻佰科技展出先進液冷方案—In-Row CDU。

除了先進液冷解決方案外,現場也展示搭載最新一代的AMD EPYC處理器與Intel Xeon處理器,以及市場上最多樣化的1U/2U/4U NVIDIA MGX伺服器產品組合,滿足不同加速運算需求。此外,鴻佰也祭出搭載NVIDIA H200、B100或B200圖像加速卡的最新AI加速器,其模組化架構可搭配氣冷或液冷系統,並支援AMD Instinct MI300X平台或Intel Gaudi 3加速器,提供多元平台選擇。

其陽展示第二代雙相浸沒式液冷方案。

其陽、廣運展示液冷散熱方案

其實,不只是伺服器業者專注於散熱方案,包含佳世達集團旗下的其陽以及廣運,也都展出散熱解決方案。其陽與工研院、廣運、一詮合作研發雙相浸沒式散熱技術,採用法商INVENTEC PFAS Free低沸點散熱液,當溫度達沸點時,液體便會氣化經冷卻循環回收運用,經此方式,PUE值最低可到1.02。有鑑於浸沒式散熱方案若是密閉性不夠,就得不斷補充冷卻液,因此其陽特別強調該雙相浸沒式液冷解決方案,具有三個大氣壓力的密閉性。而廣運機械在現場除了展示雙相浸沒冷卻方案(與其陽合作),也有Side Car方案展示,採標準的ORv3機櫃,可解熱80kW,不需外接冰水櫃,可獨立使用,預計未來還將推出120kW解決方案。 

廣運機械Side Car方案可解熱80kW。

 


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!