亞馬遜旗下公司Amazon Web Services(AWS)正式發表三項人工智慧(AI)服務,讓任何開發人員都能輕鬆建構理解自然語言的應用程式,除了將文字轉變成生動的語言、透過聲音或文字進行對話以及分析圖像外,還支援識別臉部、物體和場景的功能。
Amazon Lex、Amazon Polly和Amazon Rekognition皆源自經過驗證並具高度延展性的Amazon技術,由全公司數千萬名深度學習和機器學習專家打造而成。所有Amazon AI服務都提供高質量、高精密度的AI能力,不僅延展性高,還兼具高經濟效益。由於Amazon AI提供全方位管理的服務,因此使用者不需要建構深度學習演算法、無須訓練機器學習模型、亦不需要前期承諾或投資基礎設備。這也為開發人員帶來許多方便,讓其只需專注於定義及建構能夠看見、聽見、訴說、瞭解及與周遭世界互動的全新一代應用程式。欲瞭解更多有關Amazon Lex、Amazon Polly或Amazon Rekognition的更多資訊,請至aws.amazon.com/amazon-ai查詢。
到目前為止,很少有開發人員能建構、部署並大規模擴展具備AI能力的應用程式,因為這樣做需要接觸大量的數據資料,以及機器學習和神經網路方面的專業知識。有效地應用AI涉及大量的手動操作,開發並調整不同類型的機器學習和深度學習演算法(如自動語音辨識、自然語言理解、圖像分類)、蒐集及清理訓練數據、訓練並調整機器學習模型。過程中也必須針對應用程式內的每個物件、臉部、聲音和語言特性重複進行檢視。Amazon AI服務消除了這些繁重的工作,透過Amazon強大且可靠的深度學習演算法和技術,任何開發人員皆可經由API呼叫或在AWS管理主控台點擊幾次,AI就可以被所有應用程式開發人員廣泛地擷取使用。Amazon AI服務強化了Amazon自然語言理解、語音辨識、文字轉換語音及圖像分析技術能力,無論是在任何的規模、任何的應用程式、任何設備或任何地點,皆可隨心所欲使用Amazon AI服務。
「結合了更好的演算法、可廣泛取得大量數據資料以及由雲端提供的高經濟效能的計算能力,AI已成為應用程式開發人員的現實。AWS可說是目前市場中一些極具創新性和創造性AI應用程式的家。」AWS資料庫、分析和AI副總裁Raju Gulabani說:「多年來,數以千計的Amazon機器學習和深度學習專家一直在開發人工智慧技術,以預測顧客可能喜歡閱讀什麼,透過機器人技術和電腦視覺技術提高物流中心的效率,並帶給客戶由我們AI技術支援的虛擬助理Alexa。現在,我們正將這些創新的基礎技術以任何開發人員都可用的形式提供,包括三種易於使用、功能強大且具高經濟效益的全面管理服務Amazon AI。我們很興奮地看到客戶運用Amazon Lex、Amazon Polly和Amazon Rekognition建構新一代的應用程式。這些應用程式將會具有類似人類的智慧,可以看到、聽到、說話,並與人和環境進行交流。」
用Amazon Lex實現智慧對話
Amazon Lex是一項提供對話介面的新服務,使用支援Amazon Alexa的相同自動語音辨識(ASR)技術和自然語言理解(NLU)技術的語言和文字來建構對話介面。Amazon Lex可輕鬆地將複雜的自然語言功能帶進幾乎所有的應用程式。開發人員可以透過輸入幾組範例指令(如「搜尋航班」或「預訂航班」),獲得完成任務所需參數(如:旅行日期和目的地)的指令,以及對應問題來詢問使用者(如「你想什麼時候旅行?」或「你想去哪裡?),直接從AWS管理主控台建構和測試機器人(會話應用程式,自動執行如檢查天氣或預訂航班等任務)。Amazon Lex則負責其餘部分,包含建構語言模型並詢問完成任務所需的後續問題。由於Amazon Lex與AWS Lambda相互整合,開發人員可以配置Amazon Lex,進而透過AWS Lambda函數觸發適當的後端服務(例如航班預訂服務)。開發人員還可以使用AWS Lambda函數預先建構的企業連接器,透過從Salesforce、Microsoft Dynamics、Marketo、Zendesk、QuickBooks和HubSpot等企業系統中獲取資料來回答諸如「我在Salesforce.com中的前十個帳戶是什麼」的問題。
使用Amazon Lex建構的機器人可於任何地方使用:從網路應用程式,到Slack和Facebook Messenger等聊天的訊息應用程式,或透過行動或連接裝置上的語音應用程式。Amazon Lex能夠處理不同平台所需的身份驗證,並透過不要求開發人員為每個平台編寫自定義代碼來簡化使用者介面設計。除此之外,開發人員不必擔心這會擴大其基礎架構,因為Amazon Lex是隨著流量增加而自動擴展,開發人員僅需支付調用Amazon Lex API的費用。
Capital One通過各種管道為消費者、小型企業和商業客戶提供廣泛的金融產品和服務。Capital One實驗室技術長Firoze Lafeer表示:「作為AWS的資深用戶,Amazon Lex與其他AWS服務(如AWS Lambda和Amazon DynamoDB)的無縫整合非常吸引人。Amazon Lex不僅是一個具高度擴展性的解決方案,還具備加快新一代語音和文字互動技術上市速度的潛力,例如我們最近為Alexa推出的Capital One技術。」
OhioHealth是一個在47個郡擁有11家醫院,並獲得全國認可的醫療保健組織。「我們很期待能利用不斷演進的語音辨識和自然語言處理技術來改善客戶的生活。Amazon Lex提供我們一個能帶給病人全新體驗的機會。」OhioHealth運營支援資深副總裁兼資訊長Michael Krouse表示:「我們在OhioHealth所做的一切都是為了能夠在正確的時間和地點為患者提供適當的照護。Amazon Lex的新一代技術和我們正在開發的創新應用程式,將有助於提供更強化的客戶體驗。我們擁有無限可能。」
HubSpot是行銷和銷售軟體的領導者。「HubSpot的GrowthBot是個集所有功能於一身的聊天機器人,透過使用會話介面取得相關數據和服務,來提升行銷人員和銷售人員的工作效率。使用GrowthBot,行銷人員可在創造內容、研究競爭對手及監控分析等方面獲得協助。透過Amazon Lex,我們增加了複雜的自然語言處理能力,讓GrowthBot能為用戶提供更直觀的UI,」HubSpot創始人和技術長Dharmesh Shah表示:「Amazon Lex讓我們不必自己編寫演算法也能使用先進的AI和機器學習技術。」
經由允許將即時通訊和身份驗證功能直接嵌入軟體應用程式,Twilio促使企業的通訊能夠更相關並合乎語境。Twilio通訊產品部總監Benjamin Stein表示:「開發者和企業使用Twilio來構建應用程式,進而與世界各地的客戶進行溝通。Amazon Lex將為開發人員提供一個容易使用的模組化架構及更全面的API,以支持在行動平台上建構和部署對話機器人。我們期待能夠看到我們的客戶使用Twilio和Amazon Lex所建構出來的東西。」
用Amazon Polly實現智慧語音
Amazon Polly讓開發人員能夠輕鬆地在現有應用程式中(如新聞閱讀器和電子學習平台)加入自然語音功能,或者為行動應用程式、設備或其他應用打造全新類別的語音功能產品。Amazon Polly便於使用,開發人員可以使用SDK或從AWS管理主控台中向Amazon Polly發送文字,Polly會立即回傳可以直接播放或以標準音頻檔案格式存儲的音訊流。47個逼真的人聲和24種語言支援,開發人員還可以選擇男性或女性的聲音及各種口音,提供應用程式給來自全球的使用者。Amazon Polly將文字內容轉換為流暢的發音,意味著應用程式可吸收多種文字格式,提供高品質的語音輸出。Amazon Polly具延展性,即使在將大量文字轉換為語音時,也能夠快速轉換為高品質的語音。使用Amazon Polly,開發人員只需支付轉換的文字內容,並且可以儲存生成的語音,無次數限制的隨意重複播放。
華盛頓郵報是一家曾獲得普立茲獎的媒體和技術公司,每天出版超過1,200個故事。華盛頓郵報資深產品經理Joseph Price說:「我們對於提供故事的音訊版本深感興趣,但是現有的文字轉換到語音的解決方案,相對於它們所提供的語音品質而言,並不具備經濟效益。但隨著Amazon Polly出現和其高品質的音質,我們期待能提供讀者更豐富多樣的方式來體驗我們的內容。」
GoAnimate是一個建立於雲端的動畫視頻創作平台,讓沒有動畫背景的商業人士也能快速、輕易地創造動畫影片。「Amazon Polly讓GoAnimate使用者能夠立刻為角色配音。這對於難以進行現場解說或時間不足的場景特別有幫助,例如開發一個多種語言的影片,或是加快前置作業中的審核,」GoAnimate創始人兼執行長Alvin Hung表示:「Amazon Polly的語音與我們豐富的前動畫資產無縫結合,鞏固了GoAnimate容易使用的特性,在為我們的客戶帶來高效率的同時,加速產品的上市。」
用Amazon Rekognition實現智慧圖像分析
Amazon Rekognition讓開發者可以快速、簡便地建構應用程式,來分析圖像,識別臉部、物體和場景。Amazon Rekognition使用深度學習技術,自動確定物體或場景,例如汽車、寵物或傢俱,並提供一個可信度評分,讓開發者可以標註圖像,以便應用程式使用者利用關鍵字搜尋特定的圖像。Amazon Rekognition可在圖像內定位臉部並探測其屬性,例如是否在微笑或眼睛是否睜開。Amazon Rekognition還支援先進的臉部分析功能,例如臉部對比和人臉搜尋。使用Rekognition,開發人員可建構一個應用程式,評估兩張圖像中的臉部是來自同一個人的可能性,從而能夠即時地根據參考照片驗證使用者。類似地,開發人員可創造成千上萬個臉部(在圖像中探測到)的集合,根據其參考圖像,在集合中搜尋相似的臉部。透過簡單、高經濟效益且可靠的AWS服務實現全面的圖像分類、探測和管理能力,Amazon Rekognition減少了開發和管理過程當中,昂貴的影像處理所需的複雜性及支出。
Redfin是一個提供全方位服務的經紀公司,使用現代的技術協助人們買賣房子。「Redfin用戶喜歡在我們的網站和行動應用程式上瀏覽房屋資訊,我們希望用戶能更簡單的篩選數億個清單和圖像。」Redfin大數據和分析總監Yong Huang表示:「Amazon Rekognition可從圖像直接生成一組標籤,這使得建構智慧搜尋功能變得相對簡單,用戶可以根據他們的特定需求(如壁爐、院子或游泳池)來尋找房子。由於Rekognition與Amazon S3 URL相容,因此可大量節省探測物體、場景和臉部的時間,且無需移動圖像。」
SmugMug是一個每天為成千上萬用戶存儲數十億張優美照片的空間。SmugMug創始人、執行長Don MacAskill說:「SmugMug的用戶希望花時間創造更多的回憶,而不是必須手動管理他們的照片收藏。Amazon Rekognition讓我們得以自動識別用戶照片中的內容,解鎖一大堆功能,並允許他們和訪客花更多時間享受生活和慶祝他們的照片。」
AWS的深度學習和AI
Amazon Polly目前在美國東部(N. Virginia)、美國東部(Ohio)、美國西部(Oregon)和歐盟(Dublin)地區可使用,並將在未來幾個月陸續擴展到更多地區。Amazon Rekognition則是在美國東部(N. Virginia)、美國西部(Oregon)和歐盟(Dublin)地區提供,並將在未來幾個月陸續擴展到更多地區。客戶可以從今天開始註冊Amazon Lex的預覽。
除了這些服務,AWS最近宣佈正在大力投資MXNet,一個開放源分散式深度學習架構,最初由卡內基梅隆大學和其他頂尖大學共同開發,貢獻代碼並改進開發人員的體驗。MXNet將使機器學習科學家能夠建構可擴展的深度學習模型,從而減少其應用的訓練時間。有關AWS支援MXNet的更多資訊,請至www.allthingsdistributed.com/2016/11/mxnet-default-framework-deep-learning-aws.html查詢。
AWS讓開發人員能夠輕鬆地運用自己的深度學習和機器學習工作,在AWS之上構建自己的AI平台。Amazon Elastic Compute Cloud(Amazon EC2)具有廣泛的instance types,並擁有大容量記憶體的GPU,是深度學習訓練的理想選擇。P2 instances在2016年9月推出,為了促進大規模機器學習和深度學習,具備高達8個NVIDIA Tesla K80加速器,每個都運行一對NVIDIDA GK210 GPU,有12 GiB的記憶體和2,496個並行處理核心。用戶可以使用AWS的深度學習AMI,其中包含六個預先配置和預先測試的深度學習架構,包括所有依賴項、Nvidia驅動程式和資料科學工具,如Jupyter和Anaconda。此外,AWS CloudFormation範本可用於規模化的深度神經網路訓練,幾次點擊便可實現。