GAI導入邊緣開發大顯神通

2024-06-06

吳心予

生成式人工智慧(AI)啟動新一波的AI應用熱潮，而邊緣AI高度安全、低延遲等優勢，也帶動大型語言模型(LLM)在終端裝置中的應用。將LLM導入邊緣端，需要足夠的記憶體容量，確保AI模型順利執行。將SSD用於AI運算，以及In-Memory Compute的技術進展，都讓邊緣端的算力更上層樓。

而CXL協定確保裝置的資料傳輸順暢，SPOT技術則實現終端裝置常見的超低功耗需求。此外，模型微型化技術，以及NPU與其他處理器的整合，也讓AI模型進一步突破算力瓶頸，在邊緣端有更大的發揮空間。
生成式AI走向邊緣
在LLM受到市場關注之前，AI技術以RNN及CNN為主流。隨著ChatGPT發酵，生成式AI啟動AI的新時代。工業技術研究院電光系統所嵌入式系統與晶片技術組組長盧俊銘(圖1)說明，在雲端運算方面，AI的訓練與推論需要的算力，隨著模型的複雜度提升。同時AI服務的使用人數也大幅增加，因此系統執行AI推論的耗能已經超過訓練。

圖1 工業技術研究院電光系統所嵌入式系統與晶片技術組組長盧俊銘指出，AI服務使用人數大增，因此AI推論的耗能已超過訓練

盧俊銘提及，目前ChatGPT擁有大量的使用者，使用者提問後，ChatGPT回覆的文字就是Token。可預期在使用者大量使用之下，LLM生成的Token數持續增加。ChatGPT也具備多模態的能力，除了文字，也能生成圖片、聲音及影片。受到生成式AI熱潮的帶動，TIRIAS RESEARCH預估2024~2028年的AI用量將快速成長，LLM生成的Token數量將增加151倍。LLM生成的影像數量將成長167倍，而AI相關的營運成本可能達到840億美元，也就是成長50倍。
新興AI技術發展初期通常以雲端運算為主，接著會逐漸導入終端。因為終端貼近使用者，也是資料產生的位置。在終端直接處理資料，可以減少大量資料上傳到雲端的負載，也能節省耗能。生成式AI在雲端運算消耗大量的成本與能源，導致產業開始思考生成式AI的邊緣運算應用。TIRIAS RESEARCH分析認為，如果2028年將20%的生成式AI工作負載轉移邊緣端，可以節省160億美元的基礎建設成本。
面對生成式AI的邊緣運算商機，台灣廠商可以從半導體優勢切入。台灣的產業具備代工伺服器的經驗，也在晶片設計上有較明顯的優勢。未來台灣的半導體產業鏈將走向Chiplet，透過可擴充的設計模式，提供AI所需的算力。軟體方面則「以硬帶軟」，發展軟體的跨領域合作，串連生成式AI軟體從底層到最上層的技術。
模型微型化助生成式AI落地
DeepMentor執行長吳昕益(圖2)認為，生成式AI對於業界最大的衝擊與影響，在於相較CNN模型的時代，現在生成式AI是主角，其他AI技術成為配角。當生成式AI成為應用主流，不少企業期望導入生成式AI。生成式AI落地部署的挑戰之一，是採用適合的訓練及推論晶片。
選擇用於生成式AI的晶片，第一個常見的挑戰是功耗及算力的平衡。功耗取決於生成式AI部署的環境中，能源網路可以提供多少電力。同時也要考量相關的AI應用，需要足夠的算力支援。吳昕益說明，如果客戶使用7nm製成的晶片，算力最高大約為40TOPS。而改用5nm的晶片，算力最高可以達到60TOPS。晶片的算力與其採用的製程高度相關，因此建議設備採用22nm以下的製程，才有機會部署生成式AI。

圖2 DeepMentor執行長吳昕益認為，生成式AI落地部署的挑戰之一，是採用適合的訓練/推論晶片

面對產業內部署生成式AI的晶片需求，滿拓科技(DeepMentor)開發微型化的設備。微型化指的是用更少的位元數，達成精準度相近的推論結果。實務上應用於協助客戶部署生成式AI模型時，從尺寸較大的模型開始導入。再依照客戶需求產出參數檔，將模型進一步縮小。例如將原先32bit的運算，改成8bit或16bit，且模型的精準度沒有損失。
微型化技術的重要性在於，生成式AI的模型相較CNN模型，參數增加一萬倍以上。因此微型化技術有助於將生成式AI的導入成本，降低50%以上，且AI的執行效率可以增加50~200%。
硬體方面，DeepMentor除了提供客戶晶片，也能協助客戶導入生成式AI系統，包含軟體、硬體及晶片。生成式AI設備常見記憶體容量，或傳輸速度不足的瓶頸。因此DeepMentor與群聯電子合作，盡可能優化系統與發揮GPU效能。若是DRAM的容量不足，則使用主記憶體來執行AI運算，協助客戶在沒有大量採購GPU的前提下，也能將生成式AI落地應用。
SSD支援AI運算空間
生成式AI與LLM發展速度飛快，在推論、微調(Fine Tune)、落地訓練的階段都需要足夠的記憶體容量及頻寬。群聯電子aiDAPTIV+產品經理陳冠文(圖3)指出，GPU內建的記憶體空間大約是24~80GB，只能執行AI推論。AI模型的訓練需要比模型尺寸多20倍的記憶體容量，也就是訓練例如Lama2 70B的模型，需要1.4TB的空間。若是要部署記憶體容量達到將1.4TB的GPU，需要極高的硬體成本。

圖3 群聯電子aiDAPTIV+產品經理陳冠文解釋，AI模型的訓練需要比模型尺寸多20倍的記憶體容量，硬體成本極高

若要落地部署AI，需要以AI的落地訓練(Domain Training)為基礎，採用可以支援落地訓練的硬體效能。包含記憶體的容量與效能，都要足以支援AI落地訓練，才能建立符合特定場域應用需求的專用模型，來提供該領域工作需要的AI推論結果。為了建立能與工作場域內的人員協作的AI，模型經過針對性的落地訓練。技術人員需要輸入公司內部的文件與技術到模型中，執行AI的落地訓練。經過落地訓練，AI模型就具備該工作場域相關的專業知識。這些專業知識多數是公司內部的機密資料，保留在邊緣端才能避免資料外洩等資安問題。
記憶體方面，主機系統中除了GPU的記憶體，DRAM及SSD的容量也能用來執行AI訓練。群聯電子協助客戶將AI落地的切入點，是將SSD作為AI運算可用的記憶體資源。在GPU的記憶體空間不足以支援AI運算的情況下，系統中的SSD透過中介層的軟體控制，在AI模型Fine Tune、執行落地運算的時候，自動將資料轉移到SSD。並且SSD在AI模型展開後，儲存AI模型的資料。在GPU執行AI運算時，只將需要運算的資料傳輸到GPU，確保AI模型的Fine Tune與運算都能順利執行。
邊緣AI開枝散葉
美商英特爾公司網路暨邊緣運算事業群平台研發協理王宗業(圖4)提及，根據調研機構IDC的統計，預估2024年生成式AI的支出是2023年的兩倍，可能達到403億美元。在產業的AI支出中，很大一部分的占比集中在基礎設施相關的服務。因為企業面對生成式AI快速發展的趨勢，需要升級硬體，來導入生成式AI。

圖4 美商英特爾公司網路暨邊緣運算事業群平台研發協理王宗業表示，企業不只期待AI增加工作效率，也希望AI用於產品開發

另外，由於生成式AI模型有大量的開源軟體，因此除了大型企業持續推出新的模型，市場上也不斷有開源模型推陳出新。如果企業考慮採用開源模型，需要克服資安挑戰，以及實現可解釋的AI。也就是說，企業不只期待AI服務可以增加員工的工作效率，也希望將AI應用於產品開發。IDC預期2027年，AI將帶動1,500億美元的支出。
市場上已經出現不少AI應用，王宗業指出，2021~2022年可以觀察到AI在製造與醫療產業中，與工作人員協作。例如AI無法取代醫生的醫療專業，但是可以協助醫生提高確認X光片的效率，提升整體醫療品質。製造業方面，則常見用於產品的瑕疵檢測。產品檢測通常都是抽檢，導入AI後則可以進行全檢，有助於提高產品品質。尤其車用電子對於產品品質的要求極高，就亟需透過AI全面檢測產品。
AI PC是實現邊緣生成式AI的終端裝置，對此英特爾推出用於AI PC的Core Ultra。此處理器整合CPU、GPU及NPU，並根據AI模型的需求，提供相應的算力。過去CPU與GPU已經支援AI運算，目前Core Ultra中的GPU TOPS是前一代的兩倍，NPU也能實現高算力且低功耗的目標。因此三種處理器的整合，有助於回應不同AI運算的需求，可以靈活在不同的算力與功耗之間轉換。
記憶體技術/模型精度持續成長
目前新興的AI應用，以自駕車為例，需要非常大的算力支援。國立陽明交通大學電子所講座教授暨台灣半導體研究中心主任侯拓宏(圖5)表示，未來市場面對新的車款可能比起馬力，更在乎汽車的算力。韓國政府也全力推動車載AI的運算效能，期望打造1,000 TOPS以上的車載算力。

圖5 國立陽明交通大學電子所講座教授暨台灣半導體研究中心主任侯拓宏分析，記憶體是運算效能的主要瓶頸，資料讀取比運算更慢、更耗電

AI應用需要強大算力支援的主因，是LLM模型的尺寸越來越大。大約每四個月到半年，整體模型的參數就會呈倍數成長。ChatGPT4的參數成長即符合上述趨勢，其訓練成本高達6,300萬美元，約是ChatGPT的三倍。因此AI的硬體如何在算力方面取得平衡，是現階段的重要議題。
在AI持續成長的算力需求上，技術研發的其中一個方向，是拉近CPU與記憶體之間的距離。因為記憶體是運算效能提升的主要瓶頸，資料讀取容易比運算更慢、更耗電。過去發展的近記憶體運算(Near Memory Computing)讓記憶體變得比較分散，跟運算單元整合，讓處理器與記憶體的距離更近。藉此提高運算的能源使用效率，減少頻繁讀取資料的代價。當記憶體技術發展到元件尺寸更小的MRAM及RRAM，可以在單位面積整合更多記憶體，儲存更多且運算更多資料。小尺寸的記憶體有助於實現記憶體內運算(In-memory Compute)，進而強化整體系統的算力。
另一方面，除了記憶體技術持續進展，AI模型在訓練與推論的精準度也不斷成長。過去可能需要用32bit才能完成的AI訓練，現在可能只需要支援4bit運算的硬體，也能達成模型精準度相近的結果。因為部分AI應用對於精度較低的運算容忍度高，在同樣的硬體效能下，將低精度的運算，可以提高單位時間內運算的參數量，進而增加能源使用效率。
CXL加快裝置資料傳輸
生成式AI逐步導入邊緣，邊緣運算的核心優勢在於，讓資料更貼近終端裝置與使用者。世邁科技(Smart Modular)亞太區市場開發產品經理黃奕璁(圖6)分析，帶動邊緣運算需求成長的因素，包含隨著IoT裝置更多、資料更複雜，上傳到雲端的資料超出網路傳輸可以負荷的量。例如工廠裡面設備有狀況，需要立即停機，邊緣運算就可以即時反應。

圖6 世邁科技(Smart Modular)亞太區市場開發產品經理黃奕璁提及，CXL協定在高速資料傳輸方面扮演重要角色

如果系統需要從遠端資料收集，在通訊環境不佳的環境，可以在端點建立邊緣設備，收集本地資訊以便後續使用。同時邊緣運算的成本較雲端低，在邊緣先儲存或運算，系統就可以只上傳必要的服務，降低建置成本。邊緣AI也能加強服務的可靠度，不受網路斷線或網路不穩影響。
在邊緣AI的應用中，CXL協定在高速資料傳輸方面扮演重要角色。黃奕璁說明，CXL基於PCIe基礎設施建置，對於記憶體而言是重要的協定。CXL作為CPU對裝置端的傳輸協定，是高速、低延遲的傳輸介面。其三個子協定各自的功能，首先CXL.io類似於PCIe的事件(Event)，讓裝置跟CXL相互溝通，主要用於初始化、連接、設備發現、列舉以及寄存器(Register)的存取。
CXL.cache則是用於設備使用主機(Host)的資料傳輸，表示設備可以直接存取主機的RAM，並且需要與CPU的Cache資料維持一致性。如果沒有有效的通訊和資料同步，可能會出現RAM使用衝突。最後，CXL.memory是CPU使用設備上的RAM。CPU可以直接存取設備上的RAM，而不需要與設備的Cache交換資料。因為CPU的Cache直接使用設備上的RAM，因此可以直接通訊，而無需額外的同步操作。
目前CXL技術發展到3.0，但真正落地的CPU產品仍停留在採用1.1版本的協定。預期2024下半年，市場上將出現採用CXL 2.0的CPU產品。可預期接下來CXL技術的演進，以及正式商品化的腳步會加快，更多裝置會支援CXL技術。
SPOT實現低功耗裝置設計
功耗是邊緣AI裝置需要克服的重大瓶頸之一。Ambiq業務總監朱宏庭(圖7)提及，穿戴式設備的功能越來越多元豐富，在小型系統裡面實現這些智慧功能的同時，低功耗設計至關重要。Ambiq的低功耗技術SPOT(Subthreshold Power Optimized Technology)，即是瞄準穿戴裝置的低功耗需求。SPOT主要透過消除MCU內部在低電壓情況下的干擾因素，達到大幅降低功耗的目的。

朱宏庭以傳統MCU舉例解釋，傳統MCU電路設計，MCU沒有啟動的時候電壓是0V，啟動的時候電壓大概是1.2V。SPOT的電路設計則是在MCU啟動時，電壓維持在0.5~1.2V。SPOT在0.5V的使用情況下，非常接近0V，容易受到電壓或溫度波動等因素帶來干擾。目前SPOT技術已經通過產品驗證，可避免上述的干擾因素，確保晶片順利量產。
Cube AI為邊緣裝置開發利器
邊緣AI可以實現不少應用，意法半導體AI應用工程師劉豐瑜(圖8)指出，工業用的預測性維護與馬達異常監測，或是停車場的車牌辨識，都不需要算力很高的設備就可以執行。在邊緣AI的裝置開發蓬勃發展下，結合MCU的開發工具，有助於產業即時導入新興的AI功能。

圖8 意法半導體AI應用工程師劉豐瑜指出，MCU開發工具有助於產業即時導入新興的AI功能

AI終端設備的開發者最在乎的是AI模型執行速度多快、需要多少記憶體，以及導入到裝置之後，AI推論的速度符不符合需求。因此意法半導體(ST)提供的Cube AI工具，可以協助技術人員在模型開發的初期，透過工具模擬模型在硬體上執行時，需要多少記憶體耗用量(Memory Footprint)，以及執行速度如何。避免軟體完成開發後，無法順利進行系統整合，也能選定符合需求的硬體規格。
生成式AI與LLM導入邊緣端，仰賴開發工具、In-memory Compute、SPOT低功耗與模型微型化等技術支援。同時NPU與其他處理器的整合，加上SSD支援AI運算所需的記憶體空間、CXL協定加快資料傳輸速度，都大力帶動邊緣AI應用的進展。