NVIDIA 攜手微軟打造大規模雲端人工智慧電腦

2022-11-24

王智仁

NVIDIA（輝達）宣布與微軟展開多年的合作計畫，共同打造最強大的人工智慧（AI）超級電腦之一，結合Microsoft Azure的先進超級運算基礎設施，以及NVIDIA的GPU、網路技術和完整的AI軟體堆疊支援這台AI超級電腦，協助企業訓練、部署和擴展AI，其中包括最先進的大型模型。 Azure的雲端AI超級電腦包括功能強大且具擴充性的ND系列及NC系列虛擬機器，這些虛擬機器經過最佳化調整，適用於執行AI分散式訓練和推論作業。Azure是第一個整合NVIDIA先進AI堆疊的公有雲，在其平台上加入上萬個NVIDIA A100和H100GPU、NVIDIA Quantum-2 400Gb/s InfiniBand網路技術與NVIDIA AI Enterprise軟體套件。

NVIDIA 將在本次的合作中運用Azure具擴充性的虛擬機器執行個體，推動研究並進一步加快推動生成式AI（generative AI）的進展。生成式AI是迅速崛起的AI 領域，其中像是Megatron Turing NLG 530B這樣的基礎模型，是無監督、自我學習演算法的基礎，用於創造新的文字、程式碼、數位影像、影片或音訊。

雙方亦合作將微軟的DeepSpeed深度學習最佳化軟體調整到最佳狀態。NVIDIA專為Azure進行最佳化調整的全堆疊AI工作流程和軟體開發套件，將提供Azure的企業客戶使用。

NVIDIA企業運算部門副總裁Manuvir Das表示，AI技術的進步加上產業採用的腳步不斷加快。基礎模型的突破性發展促進研究潮、培育出更多新創公司，並開發出新的企業應用。我們與微軟的合作將為研究人員及企業提供最先進的AI基礎設施和軟體，善加利用AI蘊含的顛覆性力量。

微軟雲端運算與人工智慧事業群執行副總裁Scott Guthrie表示，AI將推動企業與工業運算的下一波自動化，讓企業在因應動盪的經濟局勢時能事半功倍。微軟攜手NVIDIA將打造出世界上最具擴充性的超級電腦平台，將為使用Microsoft Azure平台的所有企業提供最先進的AI功能。

將NVIDIA Compute和Quantum-2 InfiniBand導入Azure平台，視尖峰使用情況調整效能

Microsoft Azure上針對AI進行最佳化調整的虛擬機器執行個體建構於NVIDIA最先進的資料中心 GPU，是第一個採用NVIDIA Quantum-2 400Gb/s InfiniBand網路技術的公有雲執行個體。客戶可以在單一叢集中部署數千個GPU，訓練最龐大的大型語言模型、大規模建立最複雜的推薦系統，以及大規模運用生成式AI。

Azure平台上的執行個體目前採用NVIDIA Quantum 200Gb/s InfiniBand網路技術和NVIDIA A100 GPU，而這些執行個體日後將整合NVIDIA Quantum-2 400Gb/s InfiniBand網路技術及NVIDIA H100 GPU。這些針對AI進行最佳化調整的產品，搭配Azure先進的雲端運算基礎設施、網路和儲存技術，將能為任何規模的AI訓練和深度學習推論作業負載，視尖峰使用情況調整效能。

加速AI開發與部署

此外，Azure平台亦將支援眾多AI應用程式和服務，包括微軟的DeepSpeed及NVIDIA AI Enterprise軟體套件。

微軟的DeepSpeed將利用NVIDIA H100 Transformer 引擎加快執行採用Transformer模型的速度，用於大型語言模型、生成式AI和電腦程式碼編寫等廣泛應用。這項技術將8位元浮點精度功能用於DeepSpeed，以大幅加快採用Transformer模型的AI運算速度，其傳輸量是16位元運算的兩倍。

廣受全球採用的NVIDIA AI平台軟體NVIDIA AI Enterprise，已在配備NVIDIA A100 GPU的 Microsoft Azure執行個體上獲得認證和支援。在日後推出的軟體版本中亦將加入NVIDIA H100 GPU支援的Azure執行個體。

NVIDIA AI Enterprise包含用於語音AI的NVIDIA Riva及NVIDIA Morpheus網路安全應用框架，能簡化AI工作流程中，從資料處理、AI模型訓練、模擬及大規模部署等各個步驟。