人工智慧 生成式AI AI伺服器 散熱 後門熱交換器 Rear Door Heat Exchanger Side Car 浸沒式冷卻系統 Immersion Cooling

伺服器重量破百突顯樓板載重問題 轉型AI機房挑戰大

從規格細節看機房挑戰 搭配綠電因應永續要求

2024-07-09
根據Dell’Oro Group預估,資料中心液冷市場將在五年內大幅成長,而人工智慧(AI)是驅動其成長的主因,預計到了2028年,所有資料中心熱管理支出中,液冷技術將佔近三分之一;而整體熱管理市場(包括空氣和液體冷卻系統),在2023年至2028年間,將以14%的年複合成長率增長,預估將上看120億美元。

而在這120億美元中,包含直接液冷、浸沒式冷卻以及後門熱交換器系統等液冷方案,在2028年將佔35億美元。 

台達電子台灣區業務總經理張立業指出,AI已成企業資料中心由氣冷轉液冷的重要驅動力。而水冷之所以能異軍突起,主要還是在於水的物理特性。在20℃環境溫度下,水的密度是空氣的800多倍,比熱是空氣的4.14倍,在相同的體積下,水可以帶走的熱是空氣的3,400多倍。因此,當AI伺服器需要大量製冷需求時,自然而然,水就被拿來運用而成為散熱用的熱載體。「液冷散熱並不是新的概念,其實早在1995年,IBM就已經把液冷運用在當時銷售的大型主機上。隨著時代的演進,在AI浪潮的席捲下,水冷散熱的概念也再度被提出,並且應用在伺服器與資料中心上。」

轉型AI機房不易 舊機房難改造

隨著半導體元件熱設計功耗(TDP)不斷攀升,AI伺服器的算力也更為強大,但在此同時,卻也造成資料中心基礎設施翻天覆地的改變。過去一、二十年來,氣冷散熱機制已經非常成熟,縱使有冷熱通道、機櫃式空調的新手法,但也是以氣冷概念為基礎進行的局部改造,目的是為了更靠近熱源,若要在此條件下部署大量的AI伺服器,不管是在空間配置、電力需求還是冷卻空調能力的要求上,其實都會面臨不少的挑戰。

他以NVIDIA DGX H100為例進行說明,該款伺服器為8U高度,額定耗電量為10.2kW,重達130.45kg。若要大量進駐在資料中心內,在空間配置上,一座42U的機櫃最多只能裝置4組DGX H100伺服器。在不包含其他周邊設備的情況下,每平方公尺的載重就需800kg,再加上其他的附屬設備及相應的電力與空調管線,保守估計樓板載重就每平方公尺須1,200kg以上。「這樣的規格,連主機代管業者都很難找到符合的據點,因此強化載重將會是企業亟需克服的問題。」

其次,在AI伺服器規格尚未問世前,單機櫃的最大耗電量約莫在25kW,而這還是客製化才有的設計,一般情況下,單機櫃約莫是在12至15kW。如今,一台NVIDIA DGX H100甚至超過10kW,可想而知,在不向台電申請增加電力的情況下,既有的機櫃最多就只能擺放1至2台。

就算企業加強高架地板載重、重新申請擴增電力,從而能夠大量部署AI伺服器,很明顯地,資料中心的冷卻空調也沒有辦法符合AI伺服器的散熱需求,張立業指出,AI伺服器的用電量是一般伺服器的3至4倍,而且空調系統的規模在資料中心建置初期就幾乎已經定案,水路管線的大小就限制了資料中心可設置的設備量體,當散熱能力不足,就很容易產生熱點。另一個附帶的缺點是,若以DGX H100最大發熱量來計算,空氣散熱所產生的風速高達8m/s以上,這樣的風速將會產生極大的噪音,有可能會對在機房內工作的人員產生傷害。 「基於上述種種考量,如果只是實驗性或小規模局部性的採用AI伺服器,建議還是分散部署,如此只需將現有資料中心做些更動改變即可,但若要全面性的購置AI伺服器,找尋新場域並採用新的散熱觀念,才能建置出一個符合AI世代的資料中心。」他說。

靠近熱源Side Car解熱受青睞

然而,新建資料中心不只需要投入預算,也需要時間來選址與打造,但企業AI應用卻不能等,為了解決散熱課題,目前市場上也推出後門熱交換器(Rear Door Heat Exchanger,RDHx)、Side Car等液態與氣態混合機制,來帶走IT設備的廢熱。

「因為AI工作負載需求,機櫃的平均功率密度節節攀升,一旦單機櫃的功率密度超過100kW以上,單純的氣冷方案已經很難因應,要解決這個問題,只有液冷式冷板散熱系統與浸沒式冷卻系統才能處理如此龐大的發熱量。」張立業解釋,台達Air-Assisted Liquid Cooling(AALC)就是Side Car的解決方案,其概念就是在伺服器機櫃旁邊配置一個製冷設備,伺服器產生的熱透過水冷板液體的傳導將熱傳送至製冷設備後再將熱排出,這個製冷設備可以是液態對氣態的交換,也可以是液態對液態交換,解熱能力也會有所不同。

台達電子台灣區業務總經理張立業指出,如果只是實驗性或小規模局部性的採用AI伺服器,只需分散部署即可,但若要全面性的購置AI伺服器,找尋新場域,採用新的散熱觀念,才能建置出一個符合AI世代的資料中心。

他提到,液態對氣態的Side Car提供的解熱能力約莫在25Kw至50kW,優點是系統小容易建置,適合既有資料中心要進行小區域裝置AI伺服器的改建需求。而缺點是熱排放至資料中心空間內,仍需要冷卻空調將熱提出,無法達到節能的目的。而液態對液態的Side Car解熱能力較高,由於是經過兩次的液體熱交換,因此可提供500kW至1,000kW的解熱能力,而且系統只需借助冷卻水塔進行常溫水的散熱冷卻及循環,能大幅降低能源的使用。但因為需要建置大量的水路系統,因此較適合擴建或新規劃資料中心。

至於浸沒式冷卻系統則是將機組浸泡到散熱介質中,透過散熱介質跟水進行熱交換後再將熱直接帶到戶外,由於使用常溫水即可運作,不必使用冰水系統,所以可以大幅降低PUE值。

張立業觀察,浸沒式冷卻仍有些問題需要克服,例如樓地板的承載重量很高,每平方公尺的承載就要設計到2.5噸才可以因應,再加上冷卻液介質還有維護考量,預計還要再發展幾年,因此,液冷式冷板散熱系統會是目前較成熟的解熱方案。

綠電助力合規永續

而在散熱議題之外,ESG永續也會是企業在AI時代下會面臨的挑戰,這是因為AI不只會增加耗電,同時也會產生數位碳足跡。近期微軟在2024年環境永續發展報告中便揭露,2023年總體的碳排放量比2020年增加了29.1%,其中間接排放量(範疇3)增長了30.9%。關鍵即在於微軟蓋了許多AI資料中心,包含建築材料以及半導體、伺服器和機架等硬體元件中都隱含了碳排,因此微軟也對部分供應商提出新要求,到2030年,為微軟提供的商品與服務需要使用100%無碳電力。

他提到,由此也顯示出,AI與減少碳排放可能互相衝突。對於企業而言,不妨選擇搭配綠電,AI工作負載導致資料中心的用電量增加已是不可變的事實,若是能搭配綠電,就能降低AI對環境的影響。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!