現今的人工智慧(AI)代理系統必須在視覺、語音與語言等不同模型之間來回切換,資料在模型間傳遞時,不僅耗費時間,也會造成情境脈絡的流失。
NVIDIA發表 NVIDIA Nemotron 3 Nano Omni,這是一款開放式多模態模型,將這些能力整合至單一系統,讓代理得以在影片、音訊、影像與文字之間進行進階推理,提供更快速且更智慧的回應。這款業界頂尖的模型為企業與開發人員提供一條生產路徑,用於打造更高效、更精準的多模態AI代理,同時保有完整的部署彈性與控制權。
Nemotron 3 Nano Omni以領先的準確度與低成本表現,為開放式多模態模型建立效率新標竿,在複雜的文件智慧、影片理解與音訊理解等六項排行榜中名列前茅。
以客服AI代理為例,它可能需要處理螢幕錄影、分析上傳的通話音訊,並同時檢查資料記錄;金融領域的代理則可能需要解析PDF、試算表、圖表與語音備忘錄。現今多數代理型系統會透過分別針對視覺、語音和語言的獨立模型來完成這些任務。
這種做法會因為反覆推論而增加延遲,導致跨模態的情境支離破碎,並隨時間推移增加成本與誤差。
Nemotron 3 Nano Omni在其30B-A3B混合式的混合專家(mixture-of-experts)架構中整合視覺與音訊編碼器,因此不再需要獨立的感知模型,從而大幅提升推論效率。該模型將這項效率與強大的多模態感知準確度相結合,讓AI系統在具備相同互動性的情況下,能夠達到比其他開放式全模態模型高出9倍的資料輸送量。最終在不犧牲回應速度與品質的同時,降低成本並提升可擴展性。
在代理型系統中,Nemotron 3 Nano Omni可與專有雲端模型或其他NVIDIA Nemotron開放式模型協同運作,例如用於高頻率執行的Nemotron 3 Super,或用於複雜規劃的Nemotron 3 Ultra;也能與其他供應商的專有模型搭配,驅動電腦操作(computer use)、文件智慧(document intelligence)及影音推理(audio and video reasoning)等代理型工作流程中的子代理。
- 電腦操作代理:Nemotron 3 Nano Omni驅動代理在圖形使用者介面中導航、推理螢幕內容,並理解使用者介面隨時間變化的狀態。H Company最新的電腦操作代理由Nemotron 3 Nano Omni驅動,採用1920×1080像素的原生輸入解析度,以實現高保真度(high-fidelity)的視覺推理。在OSWorld基準測試的初步評估中,這項整合在複雜圖形介面導航方面展現顯著躍進,並充分運用Nemotron 3 Nano Omni處理極高解析度影像的能力。
- 文件智慧:Nemotron 3 Nano Omni可解讀文件、圖表、表格、螢幕截圖與混合媒體輸入,讓代理能在視覺結構與文字內容之間進行連貫推理。這對企業分析與合規工作流程至關重要。
- 影音理解:在客服、研究與監控工作流程中,Nemotron 3 Nano Omni能維持音訊與影片的情境脈絡,將說出的內容、顯示的畫面與記錄的文件整合至單一推理流程,而非零散的摘要。