NVIDIA Nemotron 3 Nano Omni 模型　最高提升 9 倍效率的 AI 代理

2026-05-20

王智仁

現今的人工智慧（AI）代理系統必須在視覺、語音與語言等不同模型之間來回切換，資料在模型間傳遞時，不僅耗費時間，也會造成情境脈絡的流失。

NVIDIA發表 NVIDIA Nemotron 3 Nano Omni，這是一款開放式多模態模型，將這些能力整合至單一系統，讓代理得以在影片、音訊、影像與文字之間進行進階推理，提供更快速且更智慧的回應。這款業界頂尖的模型為企業與開發人員提供一條生產路徑，用於打造更高效、更精準的多模態AI代理，同時保有完整的部署彈性與控制權。

Nemotron 3 Nano Omni以領先的準確度與低成本表現，為開放式多模態模型建立效率新標竿，在複雜的文件智慧、影片理解與音訊理解等六項排行榜中名列前茅。

Nemotron 3 Nano Omni實現更快速、更精簡的多模態代理

以客服AI代理為例，它可能需要處理螢幕錄影、分析上傳的通話音訊，並同時檢查資料記錄；金融領域的代理則可能需要解析PDF、試算表、圖表與語音備忘錄。現今多數代理型系統會透過分別針對視覺、語音和語言的獨立模型來完成這些任務。

這種做法會因為反覆推論而增加延遲，導致跨模態的情境支離破碎，並隨時間推移增加成本與誤差。

Nemotron 3 Nano Omni在其30B-A3B混合式的混合專家（mixture-of-experts）架構中整合視覺與音訊編碼器，因此不再需要獨立的感知模型，從而大幅提升推論效率。該模型將這項效率與強大的多模態感知準確度相結合，讓AI系統在具備相同互動性的情況下，能夠達到比其他開放式全模態模型高出9倍的資料輸送量。最終在不犧牲回應速度與品質的同時，降低成本並提升可擴展性。

在代理型系統中，Nemotron 3 Nano Omni可與專有雲端模型或其他NVIDIA Nemotron開放式模型協同運作，例如用於高頻率執行的Nemotron 3 Super，或用於複雜規劃的Nemotron 3 Ultra；也能與其他供應商的專有模型搭配，驅動電腦操作（computer use）、文件智慧（document intelligence）及影音推理（audio and video reasoning）等代理型工作流程中的子代理。

電腦操作代理：Nemotron 3 Nano Omni驅動代理在圖形使用者介面中導航、推理螢幕內容，並理解使用者介面隨時間變化的狀態。H Company最新的電腦操作代理由Nemotron 3 Nano Omni驅動，採用1920×1080像素的原生輸入解析度，以實現高保真度（high-fidelity）的視覺推理。在OSWorld基準測試的初步評估中，這項整合在複雜圖形介面導航方面展現顯著躍進，並充分運用Nemotron 3 Nano Omni處理極高解析度影像的能力。
文件智慧：Nemotron 3 Nano Omni可解讀文件、圖表、表格、螢幕截圖與混合媒體輸入，讓代理能在視覺結構與文字內容之間進行連貫推理。這對企業分析與合規工作流程至關重要。
影音理解：在客服、研究與監控工作流程中，Nemotron 3 Nano Omni能維持音訊與影片的情境脈絡，將說出的內容、顯示的畫面與記錄的文件整合至單一推理流程，而非零散的摘要。