AI基礎架構升級　模型治理成上線關鍵

2026-06-10

洪羿漣

當生成式人工智慧（GenAI）與代理型人工智慧（Agentic AI）持續進入企業應用現場，AI基礎架構的討論已經逐漸離開單純採購圖形處理器（GPU）伺服器的階段。企業真正需要面對的問題是，既有算力是否被有效利用，模型檔案是否可追溯，推論服務是否能穩定提供，API金鑰與使用成本是否可控，以及AI應用進入正式環境後，資訊部門能否用可維運、可稽核的方式承接。

逸盈科技雲端應用整合部資深技術顧問鄭兆良表示，逸盈引進Arcfra的主要原因，與台灣企業目前面臨的IT成本壓力與架構複雜度有關。許多組織已經累積實體伺服器、虛擬化平台、Kubernetes叢集與邊緣場域設備，但新一波AI需求又帶來GPU、模型、推論引擎與權限控管等新維運項目。若每個團隊各自採購AI伺服器、各自安裝模型與推論服務，初期雖然能快速測試，長期卻容易形成算力閒置、模型版本混亂、金鑰分散與成本難以估算等問題。

鄭兆良觀察，目前企業對AI應用仍然積極，但多數專案在正式導入前會遇到流程與資料問題。許多團隊想要投入AI，卻尚未釐清哪些資料可交給模型處理，哪些作業流程適合自動化，哪些場景必須先限制風險。他認為，AI導入失敗並不罕見，關鍵在於能否降低試錯成本，並讓同一批算力創造更高產出。這也是逸盈評估引進Arcfra Neutree AI Platform時，看重其資源整合與模型治理能力的原因。

AI資源池化降低算力閒置

在企業實務環境中，AI算力很少是一開始就以標準化平台出現。鄭兆良指出，有些單位先購買少量工作站或AI伺服器，自行安裝推論服務與模型；當使用人數增加、模型種類變多，才發現重新安裝、更新、監控與權限分配都會成為負擔。Arcfra Neutree AI Platform的定位，是將不同型態的GPU資源整理為企業可調度的AI資源池，讓AI工程師或應用團隊可透過平台取得所需算力、模型與API服務，而IT部門可掌握資源使用率、API使用統計與Token用量。

Arcfra Neutree AI Platform可跨實體機器、虛擬機器與Kubernetes工作負載管理異質GPU資源，並支援多種AI晶片。鄭兆良說明，若客戶已有資料中心伺服器、分支節點或邊緣設備，逸盈科技會先協助盤點既有資源，判斷哪些設備適合納入平台管理，哪些仍應維持原有架構。若是x86架構，整合難度相對較低；若涉及ARM架構或特殊設備，通常會被規劃成不同資源池，讓適合的應用在合適的節點執行。

這樣的架構對台灣市場具備現實意義。鄭兆良表示，企業核心系統通常較保守，不會立即替換既有虛擬化平台，因此逸盈科技多半會建議客戶先由測試開發、分支據點、邊緣場域或非核心工作負載切入。這些場景有實際需求，對核心業務影響較可控，也能讓客戶以概念驗證方式確認部署流程、管理介面、效能表現與維運可行性。若後續使用狀況穩定，再逐步擴大到更關鍵的私有雲或AI營運環境。

模型治理成為正式上線門檻

企業現有應用也不會在短時間內完全容器化。鄭兆良指出，多數企業系統已逐漸虛擬化，但容器化仍在推進中，尤其早期企業資源規劃（ERP）或特殊應用若要改寫成容器架構，仍需要長期工程。因此，企業更需要一個同時承載虛擬機與容器的管理平台。Arcfra Enterprise Cloud Platform（AECP）可在單一管理介面管理虛擬機與Kubernetes，在其容器服務與AKE架構中，可透過CNI等網路能力提供Pod與虛擬機之間的流量可視化，協助IT團隊以較熟悉的方式理解容器網路與東西向流量。

逸盈雲端應用整合部工程師王軍凱（左）與資深技術顧問鄭兆良（右），說明Arcfra Neutree AI Platform如何整合GPU資源、模型治理與推論維運。

當AI專案進入正式環境，模型本身也必須被視為企業資產管理。逸盈科技雲端應用整合部工程師王軍凱表示，模型檔案若分散在不同部門、伺服器或工作站，容易出現版本不一致、來源無法追溯、授權狀態不清，以及同一模型被重複下載與重複維護等問題。因此，Arcfra Neutree AI Platform提供模型登錄與模型目錄，讓企業將模型集中納管，並透過版本、部署範圍與環境標記，區分測試環境與正式環境所使用的模型。

王軍凱說明，企業在管理模型時，通常需要先確認模型來源是否合法，是否適合放入內部環境，再由IT或平台管理者上傳與發布。後續部署時，平台可記錄使用的是哪一個模型版本、部署到哪一個環境，以及由誰執行相關操作。這對法遵、品質追溯或營運責任要求較高的企業尤其重要，因為AI輸出結果若影響業務決策，組織必須知道背後使用的模型、版本、參數與推論服務狀態。

為了降低模型部署門檻，Arcfra Neutree AI Platform也支援模型範本以YAML匯入，協助標準化部署參數。模型目錄可依模型類型與規模，匹配推論引擎與推論參數組合，支援文字生成、嵌入模型、重新排序模型與視覺模型等類型。對新手而言，這可減少手動設定錯誤；對跨團隊協作而言，則能讓模型部署流程具備一致性，避免每個團隊以不同腳本與不同參數自行部署。

推論服務的效能與可靠度，也是AI正式上線時的重要門檻。鄭兆良指出，大型語言模型（LLM）推論會使用鍵值快取（KV-Cache）保存推論過程中產生的Key與Value中間狀態，若複本排程只採一般輪詢機制，後續請求可能被送往另一張GPU，導致先前快取無法被有效利用。Arcfra Neutree AI Platform支援KV-Cache感知複本排程，可優先將相關請求送回已有快取的GPU複本，減少重複計算，並改善回應穩定度與GPU使用效率。未來若搭配自動擴展與自動縮減機制，企業也能在高峰時增加複本，低負載時釋放GPU供其他應用使用。