Meta展開重大計畫,重新改造新一代的基礎建設架構,專為AI所設計,涵蓋硬體與軟體堆疊的各個層面,奠基未來發展更劃時代的AI模型,更有效率地部署各項新技術,將AI驅動的技術突破,應用於未來元宇宙的發展。
隨著Meta在AI領域的突破性發展、更多尖端AI應用與體驗注入Meta旗下服務,並同時建構關於元宇宙的長期願景,在未來十年,Meta的AI運算需求將大幅成長。Meta正開始打造新一代的Meta基礎設施架構,特別為AI設計,涵蓋硬體與軟體堆疊的各個層面,及串聯這些技術的客製化網絡,包含Meta第一個用於執行AI模型所客製化的晶片、全新的AI優化資料中心設計,以及配備1萬6千個GPU,且專為AI研發設計、目前進展至第二階段的超級電腦。這些為了轉型所做的努力,再加上其他醞釀中的計畫,將讓Meta有能力開發更龐大、更精密的AI模型,並以有效率的方式大規模地部署這些技術。
AI已是Meta產品的核心,不僅提升個人化體驗程度、開發更安全且更公正的產品及創造更豐富的體驗,還能協助企業商家接觸到最重視的受眾。接下來Meta也計畫調整程式編寫的方式,透過內部開發的生成式AI程式編寫輔助工具Code Compose,提高開發人員在軟體開發生命週期的工作效率。透過重新思考如何在現有基礎建設架構展現創新精神,Meta已開始建構可有效規模化的基礎,在短期支持如生成式AI等新興技術,更可放眼長期目標將由AI驅動的體驗帶入元宇宙。
自2010年設立第一個資料中心後,Meta至今已打造出橫跨全球的基礎建設架構,為每天30億使用Meta旗下應用程式的大眾服務。多年來,AI已成為這些系統的核心,從2015年的Big Sur硬體,到PyTorch的開發,再到去年專為AI研究設計的超級電腦的初步開發,現在將以三大方式來精進基礎建設架構:
- MTIA(MetaTraining and Inference Accelerator): MTIA是Meta第一個由內部開發的客製化加速器晶片系列,專門用於處理推理相關的工作。MTIA針對內部的工作內容特別設計,且其提供的運算效能及處理效率優於CPU。藉由同時部署MTIA晶片與 GPU,Meta將提高每項工作的績效、減少延遲,以提升處理效率。
- 新一代資料中心:Meta的新一代資料中心設計除了將支援現有產品外,更將協助未來新的AI硬體展開訓練及推理。這個新資料中心將為優化AI所設計,支援液體冷卻式AI硬體設備(liquid-cooledAIhardware)及高效AI網絡,將數千個AI晶片串聯在一起形成資料中心規模的AI訓練集(AItraining clusters)。無論其開發的時間與成本都將提升,還能與其他新的硬體設備相輔相成,像是Meta為了支援持續成長的影音內容而首度在內部開發的ASIC解決方案MSVP(MetaScalable Video Processor)。
- Research SuperCluster(RSC)AI超級電腦:Meta的 RSC 是全世界最快的AI超級電腦之一,可訓練新一代的大型AI模型以支援新的擴增實境(AR)工具、內容理解(Content Understanding)系統、即時翻譯技術等,配備1萬6千個GPU,全數皆可透過3層Clos網絡結構存取,為2千個訓練系統各自提供足夠的資源。從去年開始,RSC已經開始參與各項研究計畫,例如Meta推動並在今年初公佈的大型語言模型 LLaMA(Large Language ModelMetaAI)。
藉由各項以AI為核心的發展,讓Meta得以運用如PyTorch 2.0這類嶄新軟體技術。這個開放原始碼的AI框架的最新版本,是由Meta與AI社群於2016年合作開發的,提供同樣強大、彈性且便於使用的工作流程。雖然它已經大幅調整,並從本質上改變並加速此架構於編譯器階段的運作方式。在推出2.0版本後,現在PyTorch以更快速的效能,支援如加速轉換器(Accelerated Transformer)及動態形狀(Dynamic Shape)的新功能。