資料急劇成長將為企業帶來多面向的問題,也因此,近年來,網路附加儲存(Network Attached Storage,NAS)市場開始發展出以叢集檔案系統為技術主體的架構,無非就是希望以橫向(Scale-Out)擴展的概念來滿足巨量資料趨勢下所面臨的諸多挑戰。
根據由IDC進行的最新「數位世界」(Digital Universe)研究顯示,數位世界資料量急劇成長,到了2020年將達到40ZB(1 zettabyte等同1兆GB),而這項預測也比往年所估計的數據多出了5ZB,相較於2010年初的估算值整整成長了50倍。
這是IDC連續第六年針對數位資料所進行的專門測量及預測,而在報告中也特別點出了幾項觀點,首先巨量資料的價值在於從大量、未被開發的資料之中擷取有用的資訊,而大多數新資料絕大部份都是未被標註、以檔案為基礎的非結構性資料。
其次,雖然企業瞭解從巨量資料分析可獲得好處,但目前僅僅只有3%有潛在價值的資料已被分析,如果這個數值在2020年可以提升到33%的話,將可擁有十分有用的訊息。
另外,非結構性資料也需要被妥善保護,2010年的數位世界中只有不到三分之一的資訊獲得保護,但這個比例將於2020年上升至40%。在此同時,企業所面臨的挑戰,如更高層次的威脅、資安技術的落差和缺乏可依從的最佳資安實務,將使這個問題持續加劇。
這項報告中也提到,雲端運算將於巨量資料管理中扮演更重要的角色,預計全球伺服器的數量將成長10倍,企業資料中心直接管理的資訊將成長14倍。
顯然地,資料急劇成長將為企業帶來多面向的問題,包括如何儲存這些大量且以檔案為基礎的非結構性資料,並且在提供安全的資料防護之餘還能針對大量資料進行搜尋,從中擷取有用價值,另一方面,當資料中心必須直接管理比原來的資料量要多出14倍的資訊時,如何有效地簡化管理負擔也是企業必須面對的議題。
近年來,儲存市場開始發展出以叢集檔案系統為技術主體的網路附加儲存設備(Network Attached Storage,NAS),無非就是希望以橫向(Scale-Out)擴展的概念來滿足巨量資料下所面臨的諸多挑戰。
叢集檔案系統為主體
簡要地說,目前主流的Scale-Out NAS是以叢集式檔案系統為基礎的橫向擴展架構,就概念上來看,Scale-Out NAS的叢集與伺服器以叢集串接節點頗為相似,Scale-Out NAS也是將多個NAS控制器組成叢集架構,當然每組控制器的後端都會有相對應的儲存空間,藉以讓效能與儲存空間能同步線上增長。
當NAS的控制器愈多,意謂著效能也會跟著擴充,這種作法是透過橫向不斷增加節點的方式來強化,因此被稱為Scale-Out NAS。
理論上,只要加入更多的NAS控制器,就能無限增長,但實際上就現階段產品的設計,NAS控制器的節點數仍有其最高限制,目前在單一叢集下可承受最高的節點數是144個節點,依照不同的解決方案,節點數的上限數以及單一叢集可達到的最大空間也各異。
如果只需要空間彈性擴充,平心而論,Scale-Out NAS並不是企業面對資料增長的唯一選項。傳統的Scale-Up(縱向)擴充型式的網路附加儲存設備也能符合儲存容量擴充的需求,而且在Scale-Up架構下,企業無須在採購初期就購滿所有空間,而是可以視企業當時環境的空間需求來彈性購置。
不過,本質上,Scale-Up NAS對空間的擴展上仍受到其本身的控制器而有所受限。一般而言,NAS本身控制器的規格會影響其整體效能的表現,當然也包括了I/O的吞吐量。
簡單地說,如果一台Scale-Up NAS,其本身的控制器在三年前設計初期只規劃到能承受100顆2TB的硬碟運作,三年後,就算單顆硬碟因為技術進步讓單顆硬碟可成長到4TB的容量,這台Scale-Up NAS基於原生設計上的限制,也無法承受插滿100顆4TB硬碟的運作環境,而且效能愈趨低下。
Scale-Up NAS力有未逮
|
▲Dell台灣分公司企業技術系統顧問陳毅達指出,市場推出Scale-Out NAS的目的,就是為了打破Scale-Up NAS原來的物理限制。 |
面對這個情況,企業可選擇的方案不是採購一台更高效能的NAS,就是找尋可以資料就地升級(Data in-place Upgrade)的方案,直接汰換舊的控制器,由高效能的控制器來替換。但不管哪一種方式,資料都是採縱向式的向上增長,滿足空間的擴充。
然而,企業環境隨時都在變動,光只是空間增長,並不能滿足企業所有需求。Dell台灣分公司企業技術系統顧問陳毅達指出,Scale-Up NAS僅僅滿足了企業對容量的需求,但當企業資料增加,代表著營運服務以及使用人數的增加,其所帶來的不只是空間需求,還包括了效能以及管理需求。「Scale-Up NAS控制器其本身的效能以及I/O流量在硬體一開始設計時便已經固定了,空間即使增加再多,還是無法脫離單一或雙控制器處理資料的能力與流量,當企業資料快速增長,也意謂著未來存取這些資料的負擔也會更重,而這也是為什麼市場會推出Scale-Out NAS的原因,其目的就是為了打破Scale-Up NAS原來的物理限制。」
效能不均與EOSL考量
EMC台灣分公司業務拓展總監李百飛指出,Scale-Up NAS先天在架構上就會受限於控制器的能力,當該台設備可承載的空間被填滿後,企業必須透過採購新的儲存設備來因應,由於設備與設備之間並沒有關聯性,當企業的應用服務要擷取資料時,必須不斷地確認資料存放的路徑,使得管理更加複雜。
而另一方面,系統效能也無法取得平衡,原先的舊設備存放的是較久且不常存取的資料,而新儲存設備則負責較新且較常存取的檔案,其結果就是某些控制器受到閒置,而有些控制器卻異常忙碌。
|
▲EMC台灣分公司業務拓展總監李百飛認為,設備維護期限終止(End of Service Life,EOSL)是一項很重要的考量因素。 |
「另外,很重要的一點是設備維護期限終止(End of Service Life,EOSL)的考量。」他提到,企業經常面臨的狀況是,原先採購的Scale-Up NAS設備是五年前設計的舊機種,而五年之後,因為設備世代交替的因素,原廠對於原先的舊機種終止設備維護,在此情況下,企業必須採購一台新款式的儲存設備來存放原先舊機種內的資料,當資料由舊機種搬移到新設備時,企業勢必得停止設備運轉,這時也會造成服務中斷,添增營運風險。
李百飛說明,當企業處於巨量資料環境下,存放於企業內部的資料可能是10PB甚或20PB,搬遷如此龐大的資料量,其衍生的難度更甚以往。
為此,EMC的Scale-Out NAS方案針對EOSL提出了解決之道,「一旦系統新增叢集節點之後,資料便會自動地搬遷分散存放,這時只要將EOSL的設備Power off,資料就會自動遷移到其他空間,如此便可以解決硬體問題,同時做到零中斷停機時間的資料遷移。」
全域命名空間
除了空間與效能之外,企業面臨的挑戰還有來自管理層面。傳統上,一份檔案文件能夠被使用者無誤存取,需仰賴的是正確的檔案路徑,一旦檔案位置改變,路徑也必須跟著修改。
「早期,一位好的儲存管理員手上都會有一份製作精良的Excel檔,上面紀錄滿滿的路徑。」陳毅達說。但是遇到大型且資料量激增的環境下,路徑管理相對也更複雜,土法煉鋼很難確實管控。
|
▲台灣IBM系統暨科技事業處資深資訊工程師林利民解釋,如何取得正確的路徑是大容量規模儲存管理必須克服的難題。 |
台灣IBM系統暨科技事業處資深資訊工程師林利民也認同,如何取得正確的路徑是Scale-Out NAS必須克服的難題。「特別是目前Scale-Out NAS設備多半提供了階層式儲存、資料生命周期(ILM)等功能,以便做到資料自動遷移與存放的機制,但如此一來,在資料路徑可能不斷變動的情況下,來自管理面的挑戰也就更大。」
為了解決這個挑戰,目前多數的Scale-Out NAS解決方案都會加入類似Global Namespace(全域命名空間)的功能來克服,簡單地說,不管資料被搬移到哪個實體儲存空間,使用者的電腦均不需要知道檔案實際存放位置,只要依照Global Namespace給予的虛擬路徑存取即可,Global Namespace機制可以把所有文件檔案,匯整到單一的命名空間,以便讓資料管理變得更為簡單。
ILM與檔案自動轉移
對於多數的Scale-Out NAS來說,資料生命周期(ILM)與檔案自動轉移(或稱階層式儲存、自動分層)幾乎已經是標準必備的功能了。
資料生命周期的宗旨,就是協助企業可以在資料被創造的那一刻至最後銷毀的過程有效管理掌控,包括資料被存取、保留、備份等等,每個過程與階段都可以配合適當的儲存媒體來進行儲存,甚至依據政策來自動搬移資料。
這兩項功能的整合除了在管理面帶來效益之外,在成本上也可以有諸多好處。例如一些陳年舊檔的資料便不用放在快速但昂貴的SSD硬碟,反而可以用便宜但大容量的SATA來存放,甚至納入歸檔的政策之中。