Red Hat AI Large language models 大型語言模型 LLM Kubernetes 生成式人工智慧 生成式AI Generative Artificial Intelligence

Red Hat AI 3 助生產環境的 AI 工作負載實現分散式 AI 推論

2025-10-21
Red Hat推出 Red Hat AI 3,此平台匯集Red Hat AI Inference Server、Red Hat Enterprise Linux AI(RHEL AI)與Red Hat OpenShift AI的最新創新成果,不僅能簡化大規模高效能AI推論的複雜流程,更賦能企業得以將工作負載更順暢地從概念驗證(PoC)推向生產環境,同時改善AI驅動應用程式的協作。

企業將AI從實驗階段推向實際應用時,往往面臨資料隱私、成本控管及多樣化模型管理等重大挑戰。根據麻省理工學院NANDA計畫的《The GenAI Divide: State of AI in Business》報告指出,生產環境AI的現實情況是,儘管企業投資金額高達400億美元,仍有約95%的企業未能從中獲得可衡量的財務報酬。

為應對上述挑戰,Red Hat推出Red Hat AI 3,專為資訊長和IT主管提供一致且統一的體驗,協助他們最大化加速運算技術的投資效益。企業不僅能於跨混合式或多供應商的環境中快速擴展與部署AI工作負載,還能透過單一通用平台,提升團隊在新一代AI代理等專案上的協作效率。Red Hat AI 3以開放標準為基礎,能滿足企業在AI發展過程中各階段的需求,支援任何硬體加速器上的任何模型且適用於各種環境,包含資料中心、公有雲、主權AI環境,抑或是最遙遠的邊緣端。

Red Hat副總裁暨AI事業部總經理Joe Fernandes表示,當企業將AI的應用規模從實驗階段擴展至生產環境時,將會面臨複雜性、成本與控管上新一波的挑戰。Red Hat AI 3作為企業級開放原始碼平台,正是為了將上述障礙降至最低。我們藉由llm-d的分散式推論等創新功能為代理式AI奠定基石,IT團隊得以更有自信地在任何基礎架構上,以自己的方式將新一代AI投入實際營運。

從訓練到「執行」:企業AI推論的轉變

企業將AI舉措推向生產環境後,其重心將從模型的訓練與調校移轉至推論,亦即企業AI的「執行」階段。Red Hat AI 3著重於可擴展且符合成本效益的推論能力,奠基於廣受好評的vLLM與llm-d社群專案,並結合Red Hat自身卓越的模型最佳化技術,為大型語言模型(LLM)提供生產環境級的服務。

為協助資訊長充分利用高價值硬體加速資源,Red Hat OpenShift AI 3.0正式推出llm-d,重新定義LLM在Kubernetes上的原生執行方式。llm-d巧妙結合經驗證的Kubernetes調度價值與vLLM的卓越效能,實現智慧分散式推論,並結合多項關鍵開源技術,包括 Kubernetes Gateway API Inference Extension、NVIDIA Dynamo低延遲資料傳輸函式庫(NIXL),以及DeepEP Mixture of Experts(MoE)通訊函式庫,賦予企業:

  • 利用分散式服務降低成本、提升效率,實現更高的每美元效能。
  • 採用專為AI工作負載的多變特性而設計的智慧推論感知(inference-aware)負載平衡器,有效改善回應時間與延遲。
  • 藉由預定的Well-lit Paths簡化於Kubernetes上大規模部署模型的流程,實現簡易營運與最高可靠性。
  • 透過跨平台支援,在不同的硬體加速器(包括NVIDIA與AMD)上部署LLM推論,最大化靈活性。

llm-d以vLLM為基礎擴展,將其從單節點的高效能推論引擎,進化為分散式、一致且可擴展的服務系統,專門協助企業達成可預測的效能、可衡量的投資報酬率(ROI),並規劃更有效的基礎架構。所有強化功能皆為因應處理高度變動的LLM工作負載,以及如混合專家模型(Mixture-of-Experts,MoE)等巨型模型的挑戰而設計。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!