伺服器隨晶片改朝換代　散熱需求帶動液冷興起

2021-06-02

余采霏

多年以來，處理器世代更迭往往是推動伺服器研發設計的重要因素，直到現在多數的情況都還是如此。隨著新處理器的發表，伺服器業者也會同步推出新款伺服器來對應市場的需求。

多年以來，處理器世代更迭往往是推動伺服器研發設計的重要因素，直到現在多數的情況都還是如此。隨著新處理器的發表，伺服器業者也會同步推出新款伺服器來對應市場的需求。舉例而言，Intel第三代Xeon可擴充處理器（代號Ice Lake）於今年（2021年）4月正式在台發表時，便同時邀請32家合作夥伴支持站台，宣示「Intel回來了！」的決心。而AMD在今年3月發表代號為米蘭（Milan）的第三代EPYC 7003系列，也預估到年底將有超過400款雲端實例採用各世代的EPYC處理器，另外有100款全新伺服器平台採用第3代EPYC處理器。由此可知，伺服器的發展與半導體晶片的演進仍舊存著密不可分的關係。

Intel回來了！Ice Lake適應各種情境

延宕許久的Intel第三代Xeon可擴充處理器（代號Ice Lake）今年4月終於正式在台發表，除了以10奈米製程生產之外，這款內建Intel DL Boost加速AI訓練、推論的x86資料中心處理器，相較前一世代可提供1.74倍的推論效能，更能挖掘隱藏在資料當中的高度價值。Intel指出，若與64核心的AMD EPYC 7763相較，在影像辨識項目最高可提供25倍效能，於20款熱門的人工智慧或機器學習工作負載則達1.5倍效能，相較NVIDIA A100 GPU更有1.3倍效能。

鎖定運算、雲端、企業等工作負載需求，AMD第三代EPYC 7003系列處理器更強化效能表現。

Intel台灣分公司業務暨行銷事業群商用業務總監鄭智成指出，企業現今面臨各式各樣的挑戰，需要一個解決方案來因應這些議題，Intel第三代Xeon可擴充處理器專為雲端、企業、高效能運算、5G與邊緣等各種應用情境打造，除了運算效能之外，網路、儲存也都有所跟進，另外也特別強化了安全性與AI加速功能。

針對安全性方面，Intel Software Guard Extensions（Intel SGX）會在記憶體區塊內劃出一個區域稱之為安全「指定位址空間」（Enclave），以提升特定應用程式碼和資料的安全性，在雙插槽伺服器中，Intel SGX最高可提供1TB的指定位址空間，協助保護關鍵應用與資料。另外Platform Firmware Resilience和全記憶體加密（Total Memory Encryption）也是新功能之一。他提到，許多企業高層主管遇上資料外洩事件時，總是會詢問IT管理人員，為什麼不做加密？但是加密需要付出代價，當運算的每一個動作都要加解密，勢必得多付出預算來滿足效能要求，或者是添購安裝PCIe加解密加速卡，現在Intel Crypto Acceleration加密功能可以有效解決這個難題。

AMD米蘭核心數取勝

比Intel更早一步，AMD搶先在3月發表了第三代EPYC 7003系列，代號為米蘭（Milan）。此系列處理器擁有多達64個Zen 3核心，每個核心可提供多達32MB的L3快取記憶體，同時也持續提供PCIe 4連接以及領先同級產品的記憶體頻寬。此外也透過AMD Infinity Guard以及對SEV-SNP安全加密虛擬化新功能的支援，具備現代安全功能。

其中，AMD Infinity Guard是一套進階的安全功能，可以防禦內部與外部的攻擊威脅，並在軟體啟動、被執行與處理關鍵資料時降低潛在的攻擊面。而SEV-SNP則擴展了EPYC處理器中現有的SEV功能，可增強記憶體完整性保護功能，藉由建構隔離執行環境來抵禦基於惡意虛擬機器管理程式的攻擊。

鎖定運算、雲端、企業等工作負載需求，第三代EPYC 7003系列處理器更強化效能表現，交易型資料庫處理效能可提升19%，Hadoop大數據分析排序速度提升高達60%，更快將資料轉化為可成為行動依據的洞察。根據AMD內部資料，對於需要在一定時間內執行更多模擬或是使用更複雜模型的HPC環境來說，AMD EPYC 7003系列處理器也能有效加速，相較於競爭對手可提供到兩倍的效能。

Arm Neoverse平台鎖定四大垂直產業

而除了Intel和AMD兩家競賽之外，Arm在去年也發表了新一代Neoverse V1、N2平台。Neoverse V1主要是針對高效能運算需求，為了容納更多運行中的指令，Neoverse V1具備了歷來最寬闊的微架構，這種既寬且深的架構加上新增的可擴展向量延伸指令集（SVE），能夠為每核心帶來更好的效能、SVE作業下更長的程式碼週期，並且提供系統單晶片設計人員實作的彈性。而Neoverse N2平台則是為基礎設施的核心鋪路，不論是在安全性、功耗效率以及效能方面都將帶來全面的提升。

Arm台灣總裁曾志光指出，自2018年，Arm發表Neoverse運算平台後，便堅守每個世代都提升30%效能的承諾，從處理器設計與製程演進的角度來看，要達到這樣子的效能表現並不容易，但是Arm實現了，相較於第一代的Neoverse N1，新的V1整體效能提高50%，針對各種向量工作負載可以提升1.8倍，針對機器學習工作負載，效能則可提升4倍。若是將Neoverse N2與Neoverse N1相比，在保有相同水準的功耗與面積效率的情况下，單執行緒的效能可提升40%。

他進一步說明，目前Neoverse平台鎖定資料中心、5G、邊緣運算以及高效能運算等領域，「資料中心導入Neoverse平台其實非常迅速，特別是在成本上可以取得非常大的效益，例如AWS Graviton 2便是使用Arm Neoverse N1核心設計的Arm晶片，這個自製晶片也成為AWS運算服務的選項之一。」另外，5G的起飛並不是只有在公有雲，Arm在未來也會在企業專網扮演重要角色，邊緣運算以及HPC也是Arm會持續耕耘的領域。

「從現在開始的未來十年，IT的基礎架構將會有巨大的轉型，在這十年中，Arm無疑是一個挑戰者，但是我們也期許自己是整個賽局的改變者。」曾志光指出，這塊市場需要的是更多元、客製化以及效率，而Arm的業務模式以及過去30年來在技術與生態系夥伴合作的累積，將有機會能夠站得更穩。

NVIDIA翻轉運算變革

因為GPU而聲名大噪的NVIDIA，在經過多年耕耘努力下，不斷地擴展產業應用領域，同時投注於技術發展，如今在遊戲領域之外，觸角更深入到AI、雲端以及資料中心。在GTC 2021大會中，NVIDIA也宣佈將針對人工智慧與高效能運算推出名為Grace的中央處理器。這款以Arm架構為基礎的處理器旨在滿足全球最先進應用程式的運算需求，包括自然語言處理、推薦系統與AI超級運算，由於這些應用必須分析龐大的資料集，因此需要超快速的運算效能與大量的記憶體。藉由第四代NVIDIA NVLink互聯技術，Grace CPU與NVIDIA GPU間，可提供900 GB/s連結傳輸速度，與當今技術領先的伺服器相比，聚集頻寬提升30倍。

而且Grace也將採用創新的LPDDR5x記憶體次系統，與DDR4記憶體相比，提供2倍的頻寬以及10倍的能源效率。此外，全新的架構利用單一記憶體位址空間，提供統一的快取記憶體一致性，並結合系統與高頻寬記憶體（HBM）GPU，簡化可編程性。雖然NVIDIA GRACE CPU預計在2023年初才會正式量產出貨，但無疑已經為市場投下一顆震撼彈，儘管Grace被定位在AI模型訓練與高效能運算工作負載應用，但未來NVIDIA與各處理器業者的競合關係也值得後續觀察。

不過NVIDIA對於伺服器市場的影響力並不只於此，在AI領域，NVIDIA宣布推出DGX A100、DGX Station A100、DGX Station 320G，以及DGX SuperPOD等產品，而在今年稍早，NVIDIA也攜手伺服器合作夥伴，發表NVIDIA認證系統，主要是搭載NVIDIA A100 GPU，以加速處理AI作業，協助企業從海量資料中，挖掘可能被遺漏的寶貴資訊，進而提升機器學習的技術。

液冷設計逐漸興起

值得留意的是，隨著半導體技術的演進，效能功耗比（Performance per Watt）也跟提升，但在此同時，散熱也將成為一大課題，除了改善元件位置與氣流設計之外，採用液冷方式冷卻也是常見的作法之一，不少專家都認為，倘若處理器的瓦數愈來愈高，屆時伺服器勢必需要仰賴液冷來帶走熱量，未來極有可能成為伺服器發展設計的方向之一。

早期液冷式伺服器設計，機身內部有盤管讓水帶走伺服器的廢熱。（圖為IBM System x iDataPlex）

一般認為，處理器的熱設計功耗（Thermal Design Power，TDP）一旦超過240W，就很難只用風扇來解決，而不管是Intel或是AMD，新一代的處理器中不乏270W、280W的處理器，若是在高密度伺服器上採用這類型處理器，散熱就是一大挑戰，目前的作法就是搭配直接液冷（Direct Liquid Cooling）系統，輔以滲漏偵測技術來解決。原理主要是藉由裝滿冷卻液的密封管線來加以降溫，零組件透過冷卻板將熱能傳導到冷卻液之後，冷卻液再透過熱交換器散熱，再回到伺服器內部繼續使用。

在伺服器內採用液冷設計並不是頭一遭，早期IBM的System x iDataPlex（IBM伺服器部門已被聯想併購）便是採用液冷式散熱，機身內部有盤管讓水帶走伺服器的廢熱，不過，在當時企業因為滲漏風險考量，接受度並沒有很高。但是隨著各式元件的演進，就連SmartNIC的瓦數都愈來愈高，液冷方案也就成為必要的解方。

更甚者，可能採用沉浸式冷卻方案（Immersion Cooling）。這項方案是利用不導電的冷卻液帶走伺服器的熱，不過因為整個主機板需要浸沒在這類的特殊液體中，因此主機板上自然不能有散熱器或是風扇之類的設計。好處是可以讓資料中心更環保，減少冷卻空調的成本，而且因為不需要其他主動式冷卻零件，也可以增加硬體放置的密度，也有助於提高處理器的運轉效能。

但是相對的，沉浸式冷卻方案對於一般的IT人員可能會帶來維護的挑戰，例如補充冷卻溶液或是故障維修的問題。而且因為沉浸式冷卻方案大多是像冷凍櫃橫放的作法，在空間效益上，也有一些討論的聲浪。不過，目前幾家具備沉浸式冷卻方案的伺服器廠商都相當看好未來的需求與發展，尤其是在大型資料中心面臨用電大戶條款下，沉浸式冷卻方案也成為考量的方案之一。