數位轉型 生成式AI 機器學習 HAMR 主權雲 資安 綠色永續

大容量儲存方案當道 數據主權意識攸關資料搜集

綠色永續成為儲存顯學 蓬勃AI升高資料安全風險

2024-04-08
全球資料呈指數性增長已是不爭的事實,數位潮流與技術趨勢發展都是造成資料大幅激增的重要關鍵,不管是影音串流、社交媒體運用,電子商務、雲端運算崛起,或是在COVID-19影響下不得不為的數位轉型變革,以及人工智慧(AI)、機器學習帶來的智慧化浪潮,在在都帶領著資料格局的演變,從而也影響到企業儲存的布局與思維。

全球資料呈指數性增長已是不爭的事實,根據Statista調查,2010年全球被創建、擷取、複製與使用的資料量僅僅只有2 ZB,然而在去(2023)年,全球資料總量已經上看120 ZB,Statista甚至預估,2025年全球資料量將增長到180 ZB。數位潮流與技術趨勢發展都是造成資料大幅激增的重要關鍵,不管是影音串流、社交媒體運用,電子商務、雲端運算崛起,或是在COVID-19影響下不得不為的數位轉型變革,以及人工智慧(AI)、機器學習帶來的智慧化浪潮,在在都帶領著資料格局的演變,從而也影響到企業儲存的布局與思維。

對於企業而言,爆炸的資料量帶來了新的機會,資料分析成為企業數位轉型過程中重要的決策參考與創新業務營運的依據;而邊緣運算和物聯網方案整合也推進資料儲存的極限,讓企業更加重視可擴充性、低延遲和高彈性;與此同時,儲存成本壓力以及日益嚴苛的永續要求也改變企業採購思維,越來越多的企業開始尋求能在相同的Form Factor下,擁有更高儲存容量的方案,藉由減少儲存設備的碳足跡讓資料中心更為綠色節能。而這也將促使解決方案供應商往大容量方向發展。

值得留意的是,去年異軍突起的生成式AI,也將成為企業儲存未來的新挑戰。根據Gartner預估,到了2026年,超過八成企業將使用生成式AI的API和模型,並在生產環境內部署生成式AI相關應用,還預估在未來兩年的總資料量中,生成式AI所占比例將從不到1%增至10%。隨著企業加速運用生成式AI,迎面而來的不僅僅是IT預算的投入壓力,更包含人工智慧資料的治理、儲存以及資料安全課題。

希捷專注機械硬碟創新

向媒體坦承已放棄開發60TB固態硬碟的希捷,決定把重心放在機械硬碟的創新上,最近宣布推出Mozaic 3+硬碟平台,藉由熱輔助磁記錄(HAMR)技術,讓單一碟片的磁錄密度突破3TB,最新推出的Exos系列硬碟,單顆容量可達30TB以上。預計未來幾年,也將陸續發展出單碟4TB和5TB以上的磁錄密度,60TB機械硬碟也將指日可待。

事實上,希捷在去年底發表的四大科技與儲存趨勢觀察中,早就透露端倪,認為硬碟密度終將成為資料中心翻新的核心。尤其是在雲端資料中心,近九成資料都儲存於硬碟內,當資料中心基礎建設接近預定汰換年限,勢必面臨將低容量硬碟汰換為高容量硬碟的趨勢。過去,資料中心目前以傳統的垂直技術(PMR)為基礎,硬碟平均容量為16TB,改為熱輔助磁記錄技術(HAMR)後,能在單一硬碟內存放更多位元,若採用30TB的大容量硬碟,在同樣空間內,將可明顯節約耗能及空間。

資料爆增也將讓大容量硬碟的需求隨之飆升,希捷在前述發表中指出,對於多數需要大容量的儲存作業來說,硬碟仍是最具成本效益的選項。全球絕大多數的資料儲存在雲端,雲端儲存容量需求預估將不斷增加,而硬碟將是其中首要受惠產品,若以每位元成本計算,大容量硬碟儲存成本約莫只有全快閃記憶體方案的五分之一,不論在何種資料中心架構中,這項成本落差未來十年都不會完全消失。

另外,資料儲存也會是企業生成式AI的成敗關鍵。企業為了訓練更精準的AI模型,將儲存更多營運資料;越來越多企業也將同時使用內部及外部資料訓練模型,以便從專屬資訊中獲益。多數科技巨擘皆預計在2024年加速投資雲端容量,以支持AI計畫發展更成熟,由於企業力圖藉產能和效率鞏固競爭優勢,AI將帶動IT支出和資料儲存需求攀升。

Pure關注能源成本與主權雲

近期,Pure Storage也委由Wakefield Research進行調查,這份「改變的動力:面對AI導入的能源與資料挑戰」(Drivers of Change: Meeting the Energy and Data Challenges of AI Adoption)調查報告發現,多數的企業並沒有預見到人工智慧的耗電量,高達73%的IT採購人員並沒有為人工智慧的能源需求做好充分準備;且89%企業認為,為導入AI而升級IT基礎架構,將使ESG目標變得更難達成。

而能源議題只是人工智慧的其中一項挑戰,對於73%企業而言,AI需要或未來將需要某種資料管理層面的升級,這些升級包括:資料管理工具(48%)、資料管理流程(46%)以及資料儲存基礎架構(46%)。

軟體標準化發揮永續影響力

對此,Pure Storage於發表2024年儲存趨勢預測的新聞稿中指出,在企業環境永續發展目標中,IT部門將扮演者更重要的角色。以往企業僅要求IT人員提高機房的能源效率,但越來越多人認為IT能夠且必須在提高整個公司的能源效率方面發揮作用。企業的技術長、數位長和永續長在未來將會強化彼此間的合作,以確保IT能在永續發展的目標中達到最大的效益,而IT在未來將透過軟體標準化,發揮實質的影響力,根據資料顯示,90%的能源都浪費在低效率的軟體上。

Pure Storage大中華區技術總監何與暉解釋,軟體標準化與資料正規化的概念其實很類似,現今企業內部存在許多重複的資料,舉例來說,員工的基本資料在人資系統被保留一份外,還可能被存放於多處,例如某資料庫內可能存放了員工編號以及地址,但是在另一個資料夾裡又留存了員工的姓名以及性別,在這種情況下,企業無法得知哪個資料才是正確的,而且也會佔用大量的儲存資源。

「當資料沒有標準化或正規化,首當其衝就會造成資源的浪費。」他繼續說明,同理,從軟體的角度來看,倘若同一個動作必須要在十個地方重複執行,相對也會造成算力與電力的消耗。試想,若是應用服務因程式設計不良時,導致原本只要十行程式碼能完成的事情卻花了二十行程式碼來執行,可以想見,效能表現與能耗一定會有所影響,「應用程式不斷改版的原因即在此,目的就是希望能在最短的時間內完成所有動作,而軟體標準化就是設計出綠色環保的應用程式,用最少的能耗來達成想做的事情。」

主權雲崛起

由於資料使用與資料位置的相關法規逐漸嚴格,企業對主權雲的需求將日益增長,像生成式AI(GenAI)這樣的人工智慧系統,在訓練過程中也會引發主權問題。Pure Storage觀察,2024年將會出現更多主權雲,因為越來越多的企業為了符合政府的法規,要求企業內部在管轄範圍內儲存資料,以強化資料控制;而包含澳洲、紐西蘭、日本及印尼等國家也正推動主權雲的落實。

他提到,談到數據主權,免不了就要牽扯到資料中心位於何處、資料提供者是來自於哪裡?「生成式AI為什麼跟主權雲有關,這是因為在法規的要求下,企業可能沒有辦法囊括所有的資料,進而阻礙GenAI的發展,」何與暉說明,因為訓練GenAI使用到的資料並不單只有企業內部資料,還有更多由外部搜集而來的資料,但是因為數據主權的關係,這些資料很可能都被保護了而搜集不到,導致無法進行模型訓練,或是影響到訓練的成效。隨著越來越多國家推動主權雲,GenAI的發展也很有可能在未來受到影響。

生成式AI加劇資安風險

生成式AI可謂是去年最熱門的技術之一,許多企業都在積極地運用其優勢,藉以創新變革,並為使用者帶來更好的體驗。然而,GenAI不只在建立和訓練模型時需要大量的資料,在運用的過程中同樣也會生成許多資料,因此如何妥善地儲存資料,特別是針對非結構化資料,給予完善的保護也將成為一項挑戰。

事實上,GenAI對企業的效益不只於此,根據IDC近期預估,到2028年,以GenAI為基礎的工具將能夠編寫70%的軟體測試,減少手動測試需求,從而提高測試覆蓋率、軟體可用性和程式的品質。根據IDC 2023年亞太地區軟體調查,亞太地區(不包括日本),有48%的企業認為審查和測試程式碼是人工智慧最能有效幫助開發人員精簡的重要任務之一。

Acronis大中華區首席技術顧問王榮信認為,依據應用場景的不同,GenAI的資料保護課題並不相同,舉例而言,將GenAI運用在測試環境,進而生成出來的資料究竟要不要被保存?因為這些資料既不是核心資料,也非企業內部真正的資料,僅僅只用於測試環境,其實並不一定需要將這些資料保留。

「但如果是應用在程式撰寫時,資料的安全就必須有所考量,」他解釋,如果原始的模型訓練就存在漏洞,那麼產生出來的程式碼就可能會有漏洞的邏輯,從而大幅提升了資安風險。此外,由於GenAI模型往往是利用開放的程式碼進行訓練,很多邏輯思維都會延續自Open Source,萬一這些開源程式碼具有邏輯上的漏洞,以此為基礎而生成的新程式碼很可能也會存在這些漏洞,一旦被突破,並且可以在企業內部橫向移動的時候,企業將會遭受到很大的影響。而且被生成的新程式碼很可能一直被複製使用,如果沒有妥善地納管,很容易就被忽略或忘記,萬一恰巧某一行程式碼中就存在漏洞,就會推升風險。

王榮信提到,以往發現開源碼漏洞時,只要知道有哪些伺服器有使用,就能針對這些伺服器進行程式修補,但關鍵就在,被生成的新程式碼並不是由程式開發人員撰寫,而是由AI生成而來,多數都不會被納入管理,而且因為GenAI實在太好用了,可能會一直不斷地被複製使用到各個環境,並且打散使用,審查時不一定能發現,這也是為何需要EDR(端點偵測和回應)、NDR(網路偵測和回應)協助,從行為分析來判斷防堵。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!