AWS 強大雲端運算力　突破生成式 AI 發展瓶頸

2023-03-16

王智仁

AWS長期深耕生成式人工智慧（Generative Artificial Intelligence）領域，擁有成熟的生成式AI創新技術與專屬的產業解決方案，不僅提供經廣泛驗證且易於部署的先進AI預先訓練模型，並藉由豐富且高性價比的雲端資源以優化成本，大力協助遊戲、電商、媒體、影視、廣告、傳媒等產業快速建構生成式AI應用，進一步打造AI時代的領先生產力。

AWS台灣暨香港產品部總監翁宇強表示，從AI技術發展來看，生成式AI開啟一次典範轉移（Paradigm Shift）。大模型、多模態、高產能和海量資料將主導新一輪科技典範的發展，為內容、行銷、遊戲等行業帶來顛覆性創新。AWS廣泛而深入的生成式AI專屬解決方案，以最先進的效能、更優異的性價比和全面的服務應用賦能各行各業，助力各種規模的企業擁抱生成式AI的浪潮。

降低成本，讓生成式AI觸手可及

目前生成式AI模型除了大眾熟知的文本和圖片生成，亦包含音訊和影片內容生成，未來將出現越來越多不同種類的生成內容。對企業而言，針對特定場景所建置的模型在成本和準確度都更具優勢，也是目前企業主要採用的模型。晶片效能和高品質訓練是生成式AI爆發的基礎，也是實現大規模發展的瓶頸。以往模型的參數量級可能僅是千級或百萬級，但現今擁有十億百億級參數的模型比比皆是，下一代模型甚至很有可能會朝著萬億級參數級別去發展。因此，降低大規模模型的成本便顯得至關重要。

然而，即使機器學習的晶片約每兩年就會有一倍或數倍的提升，仍然不足以跟上日趨複雜的訓練模型。替代的解決辦法就是利用分散式多處理器，透過一個網路進行協同運算、協同訓練。AWS專門為雲端中高效能模型訓練而搭建的Amazon EC2 Trn1執行個體，最多可以搭載16顆專門用於機器學習訓練的Trainium晶片，512GB加速器記憶體和800GBps的網路頻寬。

Trn1是擁有高性價比的深度學習執行個體，與基於GPU的類似執行個體相比，訓練成本大幅降低了50%。以一個具備萬億級參數的大模型進行兩周訓練為例，GPU伺服器P3dn需要600個執行個體，最新一代GPU執行個體P4d需要128個執行個體，但Trn1僅僅只需使用96個執行個體便能達成。

2022 AWS re:Invent全球大會推出一款基於Trn1的網路優化型執行個體Trn1n，進一步把網路頻寬增加一倍，從800GBps躍升到1600GBps，其強大的網路傳輸能力能夠將超過1萬個Trainium晶片建構在一個超大規模叢集裡，並在叢集中進行模型的並行訓練。

除了訓練外，大模型也需要超高的推論能力。因此，AWS建構了Inf1執行個體，用自研的推論晶片Inferentia提供支援，實現低延遲、低成本的推論。Inf1執行個體和GPU的執行個體相比，每次推論成本可以大幅降低70%。

去年底AWS re:Invent全球大會還推出下一代自研推論晶片Inferentia2，以及基於此的Inf2執行個體，這是專門為大型Transformer模型分散式推論建立的執行個體。與Inf1執行個體相比，它提供高達4倍的輸送量，降低多達10倍的延遲。與基於GPU的執行個體相比，每瓦效能提升高達45%，同時也支援諸如GPT類型的大型複雜模型，並且可以用單執行個體實現1750億參數模型的推論。

AWS日前也宣佈與AI技術公司Hugging Face進一步合作，以加速對大語言模型和視覺模型的訓練、微調和部署，使用者能更輕鬆優化效能並降低成本，從而更快地將生成式AI應用投入到生產環境。