亞馬遜全新 Nova Sonic 語音到語音模型

2025-04-10

王智仁

亞馬遜全新的基礎模型Amazon Nova Sonic，將語音理解與語音生成統一於單一的模型中，使AI應用程式中的語音對話更貼近真人交流。該模型透過Amazon Bedrock上的新API提供，可簡化語音應用開發流程，例如客戶服務通話自動化及涵蓋旅遊、教育、醫療、娛樂等領域的跨產業AI代理（AI agents）。

在過去十餘年間，亞馬遜始終引領著語音技術的發展，致力於為對話式AI應用賦能，從打造全球領先的個人AI助手Alexa，到開發AWS的各類服務，如Lex、Polly和Connect等。然而，要讓語音AI為客戶創造更多實際價值，它必須能夠理解人類對話的微妙差異與複雜性。在對話中，文字本身承載意義，但若沒有聲音語境賦予其深度，僅憑文字往往難以傳達完整資訊。如何表達與表達什麼同樣重要，甚至更為關鍵。從過去到現在，透過AI實現這一點都是巨大挑戰。

一套捕捉語氣、風格與節奏的語音系統

傳統語音應用開發需要複雜地協調多個模型，例如將語音轉為文字的語音識別模型、理解並生成回應的大型語言模型（LLM）、將文字再轉為音訊的文本轉語音模型。這種分散的方法不僅增加開發的複雜性，同時也難以保留自然對話中至關重要的聲音情境和細微差別，如語氣、語調韻律和說話風格等等。

Nova Sonic採用全新方法應對這些挑戰。它摒棄了使用多個不同模型的方式，而是將理解與生成功能統一於單一模型中。這種整合使模型能根據語氣、風格等聲音情境以及口語輸入調整生成的語音回應，進而實現更自然的對話。Nova Sonic甚至能理解人類對話的細微變化，包括說話者的自然停頓與猶豫，能在恰當時機做出回應，並能從容應對對話中的插話情況。

基於Amazon Nova Sonic建構的旅遊AI代理案例

這段對話展示客戶與虛擬旅遊助手討論夏威夷行程的場景。當客戶的語氣從興奮轉為擔憂費用時，AI的語調隨之變得更具安撫性，並即時調取相關價格資訊。

該模型還會為用戶語音生成文字檔，讓開發者能夠利用這些文本來調用特定工具與API，進而建構語音AI代理。像是在這個案例中，AI旅遊代理可以透過獲取最新的航班資訊來協助使用者預訂機票。這些功能加上超快的推論能力，使Nova Sonic支援的語音應用不僅更加自然，而且實用性更高。

基於Amazon Nova Sonic建構的企業AI助手案例

此案例展示企業客戶如何從Nova Sonic基於公司資料生成回應的功能受益。該助手能夠存取報告並以自然對話的方式傳遞準確資訊，同時主動提出相關的後續問題。這種流暢的對話模式支援多輪互動，無需說話者額外設定對話背景。

推出Nova Sonic彰顯亞馬遜在先進基礎模型領域的持續創新，亞馬遜始終致力於為每一位亞馬遜客戶創造實際價值。