英特爾(Intel)技術部落格近期聯繫了IBM watsonx平台產品管理副總裁Edward Calvesbert,取得他對於IBM watsonx相關議題,以及優化資料工作負載性能以實現AI Everywhere的一些看法與回應。
長久以來,IBM和英特爾在資料和人工智慧方面緊密合作,包括雙方聯手優化IBM watsonx.data堆疊,並透過對Presto開源社群的技術貢獻來提升效能。根據英特爾進行的測試,第五代Intel Xeon 8592+處理器能為IBM watsonx.data上的Presto C++ v0.286和查詢優化器,提供高出4.3倍的查詢吞吐量(比起透過AVX-512優化Presto)。
對此,Intel技術部落格近期聯繫了IBM watsonx平台產品管理副總裁Edward Calvesbert,取得他對於IBM watsonx相關議題,以及優化資料工作負載性能以實現AI Everywhere的一些看法與回應。
IBM watsonx.data是什麼?
watsonx.data是開放性的資料湖倉(Data Lakehouse),用於分析工作負載的資料管理架構,其中包括資料轉換和擴充(Enrichment)、商業智慧(Business Intelligence,BI),當然還有人工智慧(AI),IBM的客戶可以透過各種方式來使用watsonx.data:
部分客戶近期將資料倉儲的工作負載,從本地設備提升並轉移至SaaS,而面臨成本上升的問題,因此他們正尋求最佳化其工作負載,尤其是擷取(Ingest)和資料轉換,以節省成本並為新的AI工作負載開放資料。
另外,還有一部分客戶的資料湖(Data Lake)已經變成難以管理的「資料沼澤」。因此,他們正將資料現代化至Iceberg開放性資料表格式中,它提供了ACID一致性,並能夠利用多個查詢引擎,降低資料擷取、轉換和載入(ETL)的成本和風險。
IBM最近在watsonx.data中添加了以Milvus為基礎的向量資料庫,這將幫助客戶在各種使用案例中快速建立檢索增強生成(Retrieval Augmented Generation,RAG)或RAG應用程式,例如透過對話方式存取企業知識庫,範圍涵蓋應用於客戶支援的技術性和使用者檔案,或是應用於員工自助服務的人力資源和其他公司政策,進而有助於各種前台和後勤職能的生產力提升。
IBM watsonx.data之於CEO、CIO的重要性
開放性資料湖倉架構具有破壞性創新的意義。它由商用雲端物件儲存服務(COS)、開放性資料表格式(如Apache Iceberg)以及多種查詢引擎組成(如Presto和Spark)。資料湖倉結合資料湖的靈活性和成本優勢,以及資料倉儲的效能和功能。
將資料架構現代化和統一化至湖倉,可以為企業提供對資料的控制,將這些資料以具成本效益的方式儲存,無論在何處,使用支援Iceberg的任何查詢引擎皆可進行存取。
透過多個查詢引擎同時存取相同資料,使用者可以選擇不同工具,企業則可以協助提高價格效能。Spark適合資料轉換、Presto適合互動式查詢,甚至像Netezza或Db2的商業資料倉儲也適用於高效能儀表板,同時降低ETL的成本和風險。
在本地資料占比仍高的企業環境下,如何應用AI資料挖掘洞察並實現商業目標
企業普遍面臨資料孤島(Data Silos)的問題,僅透過雲端建立新的資料孤島將無法解決。結合不同來源的新資料與既有企業客戶、交易和資產,將可發現新洞察。
湖倉架構擴充了現有的儲存庫,並可以連接到資料所在的地方。它還可以幫助統一和豐富資料,輕鬆解鎖這些新洞察。
IBM和英特爾為實現AI無所不在的努力
watsonx是商用AI,對於提供服務給客戶和整個市場,IBM和英特爾擁有著近乎相似的指導原則。對於watsonx而言,這些原則代表著開放(Open)、定向(Targeted)、可信任(Trusted)以及賦能(Empowering)。
開放包括混合部署,意指可在任何地方和基礎設施上運作,它也意味著開源,擁有廣泛且多樣化的創新和專案治理社群。
watsonx專注於商業應用領域,協助客戶解決諸多問題和企業考量,例如價格效能、工作負載調度、最佳化,以及安全性和生命週期管理。
信任是企業永續營運的基石,需要長時間的建立,而且很可能在轉瞬間消失。IBM和英特爾數十年來致力取得客戶的信任,在AI領域,信任是選擇、客製化、部署和監控模型的過程,同時也是構建和追蹤模型以監控其是否遵守公司和法規政策的過程。
此外,使用AI整合的使用案例及應用程式也必須評估其風險。watsonx平台讓組織能將其AI工作負載及企業資料和應用程式進行客製化、整合以及託管(Co-locate),協助驅動真正競爭優勢。在技術和供應商環境快速發展下,選擇具備共同價值觀和良好記錄的合作夥伴是關鍵的評估考量。
透過對Presto查詢引擎的開源貢獻,在Intel Xeon可擴充處理器上運行watsonx.data
IBM長期致力於最佳化Presto 2.0的效能,由Meta、IBM、英特爾等公司共同開發的下一代Presto版本,以能橫跨多個運算引擎進行組合的開源C++原生加速函式庫(Native Acceleration Library)Velox來執行。專注於TPC-DS分析工作負載基準測試,此最佳化發生在技術組合的每一個層面,從查詢最佳化工具到查詢引擎和儲存層。
到目前為止,測試結果顯示,相較於傳統的開源Presto,已獲得顯著提升。
攜手Intel Gaudi加速器,對watsonx至關重要
現今,AI工作負載來自相對少數正在訓練基礎模型的公司,而多數企業則使用自身資料客製化這些模型,並將AI整合至企業應用程式中。在混合雲環境及不同服務水準協議(SLA)間的工作負載多樣性,代表企業需要決定在何處運作什麼,以便託管和擴充AI。
IBM與Intel Gaudi加速器的合作,為共同客戶提供靈活性,以最佳化他們的訓練、調整和推論工作負載,並實現最佳效能,這對在整個企業中擴充AI至關重要。
<本文作者:Murali Madhanagopal現為英特爾軟體解決方案架構師、Edward Calvesbert現為IBM watsonx平台產品管理副總裁>