傳統機房轉型AI機房 載重電力冷卻須克服

2024-07-15
一般資料中心的使用年限,至少是10年至15年,甚至還可能長達20年,由此推估,現今多數企業的資料中心幾乎都是多年前建置,除非在建置初期就留有足夠的餘裕,否則,在電力以及冷卻空調能力幾乎都已經固定的情況下,將AI伺服器進駐到既有的資料中心,其實會面臨諸多難題。

不論是醫學、交通、娛樂或是工業領域,人工智慧(AI)應用已遍地開花,尤其是生成式AI(Gen AI)。根據調研機構Gartner調查,生成式AI已經成為企業組織中最常部署的人工智慧解決方案。Gartner資深分析總監Leinar Ramos認為,Gen AI提高了企業對人工智慧的採用程度,並使人工智慧技能提升和人工智慧治理等主題變得更加重要。 

基此,AI伺服器也成當紅炸子雞,今年的Computex展更是圍繞著AI,橫跨PC、邊緣、資料中心到雲端,其熱潮可見一斑。展會現場也有多家OEM、ODM廠商展出由新款AI晶片所打造出來的怪獸級整機櫃系統,主打能應用於「兆級參數」規模的生成式AI運算。

電力散熱一體兩面 氣冷難解

但是強大算力的背後,卻有著諸多的問題需要克服,首先是電力成本的高漲,伺服器的運作需要大量的電力,以及冷卻空調與水來進行冷卻,隨著晶片的功耗從350W來到500W,甚至超過1,000W,伺服器所需的電力需求也會隨之攀升,根據Digiconomist創辦人Alex de Vries的研究,預估到2027年,全球人工智慧對電力的年需求可能會從85.4 TWh(TeraWatt-Hour,太瓦時)增長到134 TWh。

 其次,來自於監管層面的節能減碳要求也與日俱增。各國政府基於永續營運目標,紛紛設立標準或法規,藉由剛性規定來增加強制力,舉例而言,歐洲已訂定標準,希望企業提出當年或未來的改善計畫,而中國大陸則制定了電力使用效率(PUE)限制,例如北京針對已穩定運行一年以上以及改擴建的資料中心,限定PUE值須達1.3,而新建資料中心則要求至PUE 1.2。

台灣熱管理協會理事長,同時也是英特爾水冷團隊技術總監的龔育諄指出,AI伺服器中,GPU其實是一個相當耗電的元件,而電與熱是一體兩面,電力增加意謂著大量的電會被轉換成熱能,如果熱能無法有效的發散,一旦超過安全操作的溫度,系統就無法運行,因此,電力與散熱通常會放在一起看待。事實上,隨著AI伺服器發展,假設原本只要兩顆1.6kW電源供應器的系統,未來可能要配置到3.2kW電源供應器8顆,甚至是12顆,亦即整個系統會從1.6kW成長到15kW,幾乎是10倍的增長,若是持續採用效能已近極限的氣冷方案,將很難因應AI伺服器帶來的散熱課題,轉向液冷也已成未來發展趨勢。

AI伺服器進駐  載重電力冷卻三挑戰

不只是伺服器受到影響,資料中心設計以及機櫃的功率密度也在AI浪潮影響下產生變革。一般資料中心的使用年限,至少是10年至15年,甚至還可能長達20年,由此推估,現今多數企業的資料中心幾乎都是早期建置,除非在建置初期就留有足夠的餘裕,否則,在電力以及冷卻空調能力幾乎都已經固定的情況下,將AI伺服器進駐到既有的資料中心,其實會面臨諸多難題。

台達電子台灣區業務總經理張立業分析,空間配置/載重、電力以及冷卻空調將會是既有資料中心面臨的三大挑戰。首先在空間配置上,以NVIDIA DGX H100為例,一台NVIDIA DGX H100是8U高度,一座42U的機櫃考量須保留空間給其他相應的裝置與設備,因此最多只能裝置4組。在不包含其他周邊設備的情況下,每平方公尺的載重就需800kg,再加上其他的附屬設備及相應的電力與空調管線,保守估計樓板載重就須每平方公尺1,200kg以上。「這樣的規格,連主機代管業者現有的大樓據點都少有符合,因此載重會是一項嚴峻的挑戰。」

其次,在AI伺服器規格尚未問世前,單機櫃的最大耗電量約莫在25kW,而這還是客製化才有的設計,一般情況下,單機櫃約莫是在12至15kW。如今,一台NVIDIA DGX H100甚至超過10kW,可想而知,在不向台電申請增加電力的情況下,既有的機櫃就只能擺放1至2台NVIDIA DGX H100。

就算企業加強高架地板載重、重新申請擴增電力,從而能夠大量部署AI伺服器,很明顯地,傳統的氣冷設計也沒有辦法符合AI伺服器的散熱需求,他提到,AI伺服器的用電量是一般伺服器的3至4倍,而且空調系統的規模在資料中心建置初期就幾乎已經定案,就算在伺服器機櫃旁部署在資料中心常見的機櫃式空調,其物理的極限只能解到20kW到30kW,而這也是驅動AI資料中心從氣冷轉往液冷的一項很重要的因素。

液氣混合散熱進行式

為了解決AI伺服器散熱問題,協助企業從氣冷過渡到液冷,目前市場上也推出了多款散熱解決方案,包含後門熱交換器(Rear Door Heat Exchanger,RDHx)、機櫃式水冷櫃(Side Car)或是浸沒式冷卻(Immersion Cooling)。儘管浸沒式冷卻方案還需要幾年的光景才能被大幅地運用,但業界專家紛紛認為未來機房走向直接液冷的散熱趨勢幾乎已經大勢抵定,尤其是未來單一晶片極有可能超過1,000W功耗,企業勢必得加速接納,屆時,以液冷散熱為主軸進行資料中心設計也勢在必行。

但在此之前,液態與氣態混合的散熱手法是解決AI伺服器散熱議題的最佳方案,一方面企業不用大幅變更既有資料中心設施架構,二方面又能克服AI散熱的難題。唯須留意的是,液態與氣態混合的散熱手法不見得會有最佳PUE值的表現,想要追求極致的PUE值,浸沒式冷卻還是現階段表現最好的方案。

不同於後門熱交換器是將熱交換器的背板安裝於CDU的背門上,並安裝在伺服器機櫃後方,Side Car冷卻系統的概念就是在伺服器機櫃旁邊再加一個製冷設備,伺服器產生的熱透過水冷板液體的傳導將熱傳送至製冷設備後再將熱排出,而製冷設備本身則是透過液態對氣態的熱交換模式來進行交換。

Vertiv技術顧問暨市場行銷專員王仁佑指出,後門熱交換器的背板內包含了盤管與風機,水會在盤管內流動,而風機會將空氣中的熱吸入盤管,以便帶走熱量。目前可以支援到50kW的機櫃功率密度。「這種液冷與氣冷協同作業模式已經是氣冷伺服器解熱的天花板了,下一階段就是進入直接液冷方案(DLC),處理器上有水冷板(Cold Plate)的液冷伺服器,就是直接液冷的作法。而浸沒式冷卻也是DLC方案的一種。」

他提到,目前常見的作法是液冷伺服器會搭配液態對氣態的Side Car來提高解熱的能力,其建置的速度最為快速,因為最終是透過整個資料中心空間的溫度來把熱帶走,對室內溫度還是會有些要求。「其實,以現況來看,就算企業部署了高階的液冷伺服器,機櫃內還是會有交換器等其他設備,需要用氣冷的方式來散熱,因此現階段還是會以液冷與氣冷混合運用的Hybrid設計為主。」


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!