以最新開放原始碼技術為基礎的全球領先機器學習和先進分析平台供應商Cloudera,發表測試版Cloudera數據科學平台(Cloudera Data Science Workbench),此平台是針對Cloudera企業版的數據科學所做的全新自助服務工具。Cloudera數據科學平台是以去年收購的數據科學新創公司Sense.io的技術為基礎,允許數據科學家使用自己偏好的開放原始碼程式語言(包括R語言、Python,和Scala),並整合原生Apache Spark和Apache Hadoop安全企業平台上的資料庫,以加快從探討到生產過程中所產生的數據分析。
Cloudera資深產品副總裁Charles Zedlewski表示:「Cloudera今年將專注在改善數據科學和工程團隊的使用者體驗,特別是那些想藉由Spark來處理數據和機器學習的使用者。Sense.io的技術及其團隊提供了強大的基礎能力支援,讓我們的數據科學平台得以為客戶帶來極具規模的自助服務數據科學。」
Cloudera數據科學平台的優點:
對數據科學家而言:
在自己偏好的資料庫與框架內選擇R語言、Python,或Scala,並可直接在網路瀏覽器上使用
直接以Spark和Impala存取安全Hadoop叢集內的數據
可與整個團隊分享見解,以進行可重複、協作式的研究
對IT專業人士而言:
讓數據科學團隊自由選擇工作方式和時間
保持與創新支援的相容性,進而實現Hadoop的完整安全性,特別是Kerberos
無論在本地或雲端都可以輕鬆管理數據
除了廣泛的Python和R語言系統生態外,當開放式數據科學擴展至Tensorflow、微軟Cognitive Toolkit、MXnet、BigDL,和其它他深度學習軟體框架時,數據科學團隊需要的是可以將這些工具使用於數據的方法,而Hadoop環境的Cloudera數據科學平台結合了最新的開放原始碼技術與Cloudera客戶信賴的整合平台,為這些成長中的數據提供相當安全可靠的儲存空間。
DataRobot執行長暨共同創辦人Jeremy Achin表示:「Cloudera數據科學平台藉由提供可隨時存取數據,減少了DataRobot自動機器學習平台與人工智慧應用的時間。DataRobot的完全整合,讓Cloudera的使用者可以在簡單易用的使用者介面上運用世界最佳的演算法和數據科學技術,進而提升商業價值。」
Charles Zedlewski進一步表示:「我們顧客的IT團隊常掙扎是否要將數據放到共享式環境,因為他們的需求相當多元,特別是當涉及到開放原始碼工具時,其結果常造成重複工作、分析孤島(analytic silos),以及有限的安全性與管理權。而此同時,數據科學家正不斷尋求可以擴展資料集和強大運算平台以拓展其工作。有了數據科學平台,Cloudera可以幫助IT團隊和數據科學家有效地協同工作,讓更多使用者以兼具彈性和相容性的方式加入此共享環境。」