Business Intelligence Hadoop for Windows Data Warehouse SQL Server Microsoft MapReduce key/value Velocity Big Data Volume Variety Oracle Hadoop Value NoSQL 巨量資料 海量資料 精誠資訊 OLTP 商業智慧 SQL ETL IBM Etu BI HP Re

HP Vertica改善資料庫效能及擴充性

2012-09-19
就資料型態區分,HP提供Big Data的解決方案,區分為結構化與非結構化,前者為Vertica、後者為Autonomy,都是2011年以併購方式取得的技術。
HP Vertica事業群大中華區總經理廖智寧表示,結構與非結構的資料型態所採用的原理跟方式截然不同,因此很難採用單一工具去處理。

但不論如何,Big Data處理的目的最終是為了進行分析,因此最終還是需回到關聯式資料庫。「而傳統資料庫架構最大的缺點就是不易Scale Out,Vertica是屬於Column-Base的資料庫,以MPP(Massively Parallel Processing)技術來進行分析,因此其效能與擴充能力自然較傳統資料庫來得好。」廖智寧說。

▲HP Vertica事業群大中華區總經理廖智寧表示,只要資料需要進行分析,仍需仰賴關聯式資料,只是該如何改善執行效率,會是資料庫系統將面臨的挑戰。
他以全球客戶群中,知名網路遊戲公司的Zynga為例說明,其建置的Vertica資料庫規模如今已擴充到了237節點,這麼大規模的資料庫系統,但Zynga卻只用2名資料庫管理者,一般直覺會想到該怎麼管的問題,像是需要隨時監看資料庫索引(Index)路徑是否偏離,以避免影響系統回應速度。

「而Vertica厲害的地方就在於不需要運用索引。」廖智寧說,用索引的用意是為了讓資料以順序表示,但Vertica的資料一旦進入資料庫中就已排序完畢,也就不用再做索引,這即是其特點之一。

以資料庫的資料形態來看,垂直方向的資料同質性本來就會很高,橫向卻很低,因此在Column-Based的資料庫中執行壓縮也會比較有效果,且資料量越大越顯著。儘管如此,Column-Based並非可解決所有問題,廖智寧表示,需視應用場景而定,例如想要分析每天上線超過5小時、喜歡種菜、有線上消費紀錄者,這類分析型態由Column-Based來做就相當快;但若換成是ERP系統,分析的內容是BOM(Bill Of Material)表,那就不適用了,因為那是Row-Based的專長。

此外,Big Data最明顯的特性就是資料量大,但這些資料要如何保護、備份,同樣也是此趨勢下不可忽略的一環。

「在Big Data的世界,動輒上百TB,已經無法再沿用以往的備份/還原模式,因此這一塊需要較以往不同的解決方案。」廖智寧說,而HP StoreOnce Backup系列中即針對Big Data環境提供了B6200 StoreOnce Catalyst與Data Protector 7解決方案。其提供的重複資料刪除(Deduplication),雖然需視檔案屬性不同,可做到重複刪除的程度也不一樣,但他認為這種隨機存取的模式,最適合應用在郵件伺服器等環境,不須全部備份檔都回復後再找出需要的Mailbox,節省時間與人力的負擔。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!