以企業需求為依歸 找出合適應用
重複資料刪除無所不在

2010-03-30
全球倡導節能減碳,企業也力行不怠。除了節省機房建置成本以及冷卻空調與電、熱能妥善規劃之外,「如何讓資料減量」也是積極思考的方針之一,畢竟儲存本身及相關備份傳輸所消耗的資源確實不容小覷。事實上,以現今企業資訊量每年成長48~50%的速度來說,傳統上把所有需要儲存的資料全部備份的作法,早已不合乎需求。
早在幾年前,IT管理人員便已經面臨到一個頭疼問題,營運上能容忍的備份窗口(Backup Window)時限愈來愈短,備份工作所需的時間卻愈來愈長,甚至影響到隔日內部員工上班效率。而且,由於備份不完全,連帶也使得營運風險增加,畢竟備份的目的就是為了能確保企業在面臨突發狀況或是不可預期的天災,能夠在最短的時間內復原到可運行的狀態,萬一系統真的出現故障,而備份資料只停留在長時間前的資訊時,這中間遺失的資料對企業都會造成影響,特別像是金融這類產業,遭受到的影響與損失甚鉅。  

減輕資料量兼顧綠色 節能  

為了解決這個問題,許多技術相繼推出,像是快照(Snapshot)以及連續資料保護(Continuous Data Protection,CDP)技術,都能有效縮短備份窗口,降低損失風險。但是資料成長的速度遠比想像中還要來得快速,例如一封10MB大小的郵件同時寄給十個人,就為系統增加了100MB的資料量,但其實資料的內容卻大同小異。  

根據調查,幾乎有70%的資料都屬於重複資料,而且一般的使用習慣上,超過三個月後再回頭存取該檔案的機率相當低,如果能夠刪除這些重複性的資料,同時不影響企業運作,對於企業而言,就能減少儲存設備的購置,而且備份,甚至規劃異地備份也更為容易,同時一旦機房的設備減少,能源消耗跟著降低,也就達到節能減碳的目的。

▲重複資料刪除技術對企業的最大好處就是在於能夠有效刪除重複性資料,依實際環境不同甚至可以到達300:1。

重複資料刪除技術對企業的最大好處就是在於能夠有效刪除重複性資料,平均可以達到20:1以上的重複資料刪除率,想像一下,20TB的資料量減低到只剩下1TB時,企業承受的資料量壓力自然可以減輕,這項技術依照檔案類型以及重複資料的多寡而會影響到刪除率的高低,但是20:1最基本的平均數字,依實際環境不同甚至可以到達300:1。  

重複資料刪除技術 愈趨成熟  

隨著重複資料刪除技術日漸成熟,目前許多儲存廠商都把重複資料刪除功能放在自家的產品或產品線中,像是Dell、EMC、FalconStor、HDS、HP、IBM、NetApp、Symantec等等提供儲存設備軟硬體廠商,都已經具備重複資料刪除技術,而未來的跟進者還有普安。  

Data Domain算是重複資料刪除技術的先驅者,該公司在2003年推出第一款具有Data De-duplication功能的NAS儲存設備開始便受到許多注目的眼光,2009年7月該公司被二大儲存設備廠商EMC及NetApp搶婚,最後EMC成功併購Data Domain,也再度讓人意識到重複資料刪除技術的重要性。  

EMC認為Green IT的概念在國內企業已經慢慢形成深層意識,而這股意識也將成為企業導入重複資料刪除技術的重要推動力。「重複資料刪除技術對於企業內的虛擬化環境也有很大助益,伺服器虛擬化後雖然可以一口氣開十個虛擬機器(VM)但每一台的虛擬機器仍需要底層的作業系統,不管企業採用的是Windows或Linux作業平台,這些作業系統佔據的儲存空間相當可觀,而重複資料刪除技術可以有效減少作業系統的資料量。」  

新品問世 簡化資訊管理  

賽門鐵克在2006年併購DTC取得重複資料刪除技術後推出NetBackup PureDisk產品線,現在則是將重複資料刪除技術進一步擴展到NetBackup 7以及Backup Exec 2010之中,這是上一代產品所沒有提供的技術,而且擴及到所有的企業規模。

▲飛康國際日前發表的第二代重複資料刪除伺服器FDS 2.0支援高可靠度(High Availability,HA),可最大程度保障備份作業不會意外中斷。

▲In-line的重複資料刪除技術可有效縮短備份窗口,同時讓異地備份或備援規劃更為容易。
 

賽門鐵克技術暨解決方案技術顧問陳力維指出,無論何種規模大小,企業正為了如何有效管理資訊成長的問題而奮鬥,尤其當企業利用虛擬化技術而延伸出更複雜的備份及資料復原需求時,透過重複資料刪除技術功能可以減少儲存需求,進而加速回復速度。  

飛康國際也在日前發表了第二代重複資料刪除伺服器FDS 2.0(File-interface Deduplication System version 2),這是一台支援高可靠度(High Availability,HA)的LAN-based重複資料刪除設備,同時也對Symantec OST具有支援能力。  

飛康國際全球行銷副總裁江志祥表示,重複資料刪除技術的發展已進入成熟階段,企業關心的重點不再只是重複刪除率,越來越多的企業開始關注重複資料刪除設備的備份效能、持續服務能力、擴充延展性等多項指標。  

江志祥指出,OST可以協助企業更有效的運用儲存設備,而且可降低網路傳輸負載,將備份資料吞吐量提昇至每小時5.4TB,透過串接兩條10GbE網路,能讓資料傳輸達到1.5GB/s,備份效能提升2倍以上。  

企業需求為主要考量  

簡單地說,重複資料刪除技術是透過特定的演算法,經過比對分析後,再將重複的資料找出,並且刪除。每一筆被刪除的重複資料都會在系統留下一份索引(Index)作為日後資料回復的依據,大部分都是以Metadata作為指向的指標,若資料的特徵值不同(亦即不重複的資料),就會被寫入磁碟之中。  

▲賽門鐵克技術暨解決方案技術顧問陳力維指出,當企業利用虛擬化技術而延伸出更複雜的備份及資料復原需求時,透過重複資料刪除技術功能可以減少儲存需求,進而加速回復速度。
主要的部署方式可以分為前端代理程式、媒體伺服器以及後端(目標端)硬體設備執行三種。前者必須在Client端裝上Agent(代理程式),透過Agent對伺服器上的指定資料區域進行分析、拆解、演算,將重複的資料刪除之後,再傳送未重複的資料進行備份。如果需要回復,也是循著此一模式反向運作。  

如果企業怕影響到前端應用伺服器的效能表現,也可以先把所有的資料傳到媒體伺服器(備份伺服器)上進行演算比對後再傳送到後端的儲存設備中。或者利用後端儲存設備或由單一Appliance來處理,把資料送到Appliance之後,準備寫入磁碟前才開始進行重複資料刪除處理,由於前端不用安裝任何代理程式,主機的運算資源便不會受到任何影響。  

EMC指出,從技術面來看,重複資料刪除技術可以分成In-line的重複資料刪除技術以及post-processing的重複資料刪除技術。企業對於這二個技術的選擇分野在於,如果企業在乎備份窗口的時間長短,那麼In-line的解決方案較為合適,因為In-line著重在企業DR備份的設計,像是異地存放或異地備援時,這就是很好的方式。  

而post-processing則是屬於背景式的備份,由於這些資料是在寫入磁碟後再排程啟動重複資料刪除功能,因此無助於備份窗口的縮短。  

找出合適應用 依照IT架構考量  

「EMC剛好同時有來源端以及目標端的重複資料刪除技術可以作為說明,以EMC在台灣的某LCD驅動IC設計業客戶為例,該公司有將近100台伺服器完全接收生產線上資料,這些資料為連續且細小檔案的傳輸,這就比較合適Avamar的應用,因為來源端的重複資料刪除技術,需要有代理程式放在伺服器端,當伺服器驅動Avamar時,就從伺服器上的資源去做重複資料刪除,然後再後送到Avamar的儲存設備,主要是節省伺服器到儲存設備中間的頻寬,可以針對比較細碎的小檔案,效能比較高。但位於台南與新竹的總公司內需要針對帳務系統、郵件、資料庫等等系統進行重複資料刪除時,則比較合適應用Data Domain。」  

陳力維認為,企業該採用那一種重複資料刪除技術,完全取決於企業內部需要,現在的重複資料刪除技術選擇性很多,不管是NAS儲存設備或虛擬磁帶櫃(VTL)內建或選購的功能,或是單一台Appliance專門刪除重複資料,亦或是像賽門鐵克般以軟體來達到重複資料刪除,最根本的目的都是為了幫助企業更有效地管理資訊。  

企業也可以依照IT架構的考量來選擇來源端、媒體伺服器或目標端的解決方案,不管採用那一種方式,現在賽門鐵克都能彈性支援,而且在不增加複雜度的前提下刪除重複資料。  

重複資料刪除對於企業帶來的最大效益,就是能減少儲存設備的購置,進而達到節省能源消耗的訴求,不過任何技術的引進都需要一筆IT預算支出,這是避免不了的事實,差別只在於計費方式,企業可以在不影響備份政策下採購Appliance,像是FDS 2.0,也能善用儲存設備開啟重複資料刪除功能或是像NetBackup 7以及Backup Exec 2010這類本身就有重複資料刪除功能的軟體,在評比成本之餘,別忘了企業需求以及藉此獲得的效益,才應該最優先考量,如此才能帶來真正的效益。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!