資料中心

最佳化資料中心四大秘訣

2024-01-31
生成式AI興起為全球各大產業帶來革命性的影響,如何運用AI技術提升營運效率、帶來創新應用已蔚為風潮。然而,機器學習、深度學習和生成式AI等工作負載,需要高密度與大量的運算資源,不僅造成顯著的電力和空間使用問題,更讓資料中心面臨可持續性的挑戰。

為了克服這些問題,企業在發展和完善AI方法時,需要善用不同解決方案以更有效地處理AI工作負載。整體來說,可從整合不同硬體運算平台、善用開放軟體、提升冷卻設計、落實混合AI架構四大面向著手:

˙跨硬體平台的異質整合:沒有單一的架構可以滿足目前AI運算的多樣性。企業必須結合CPU、GPU等通用運算資源,以及FPGA和專用的AI加速晶片等,根據不同的應用場景、運算性能與複雜度,有效地進行AI開發、訓練和推論。透過異質運算架構的整合,讓不同類型的運算晶片彼此分工合作,以發揮綜效,不僅滿足特定的應用需求,更讓整體資料中的運算效率、總體硬體成本、能源使用控制等面向,達到最佳化的表現。

˙善用開放式軟體與預先訓練模型:使用經過市場驗證的開放軟體模組和預先訓練模型,可以最佳化常見的AI應用工作負載,確保充分利用每個可用的運算資源。舉例來說,英特爾的軟體加速框架和資料函式庫已根據不同應用程式、模型和使用案例進行最佳化,預先訓練的深度學習模型則可協助開發人員加快深度學習軟體的開發。此外,透過統一的應用程式編程介面,與運算晶片緊密搭配,讓開發人員可以輕鬆轉移開發成果外,也能開放地與產業界常見的Framework(軟體框架)深入連結,與此同時,結合豐富的AI效能分析套件可確保實際的效能表現。

˙提升資料中心冷卻系統與設計:隨著複雜且需要大量計算的AI工作負載變得更加普遍,有效的冷卻策略至關重要。目前資料中心的能耗平均有40%用於冷卻,因此冷卻效果對整體能源效率和資源消耗有著巨大的影響。相較於空氣冷卻解決方案,液冷技術可為資料中心帶來更高的PUE(電源使用效率)。其中,冷板解決方案在個別元件上表現良好,提供可擴展的部署方式,可以輕鬆對現有基礎設施進行改造而不增加系統的重量。浸沒式解決方案可為較高溫、高濕環境或污染地區提供高效的系統級冷卻。

˙應用混合式AI架構:混合式AI(Hybrid AI)的核心概念是根據AI工作負載的屬性,以協同分工的方式,妥善分配資料中心與終端裝置的運算工作,讓整體運算效能在雲端與終端之間取得更好的連結與負載平衡。以AI推論工作為例,無需透過資料中心才能完成,善用終端的運算,也能滿足快速回應、降低延遲,並適當地減輕雲端的資料中心的工作負載。

<本文作者:鄭智成現為英特爾業務暨行銷事業群商用業務總監>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!