資料經緯是以一種智慧化和安全化的自助式服務,動態地協調分散式的資料來源,跨資料平台地提供整合和可信賴的資料,支援廣泛的不同應用的分析和使用場景。
每隔10年,IT世界就會出現一波關鍵浪潮:20年前是資料倉儲,10年前是大數據和資料湖。如今,一個名為資料經緯(Data Fabric)的數據架構浮上枱面,引發討論。
在瞭解資料經緯之前,先來看看現今的IT資料架構和十多年前有什麼不同。在資料倉儲時代,企業的資料量還不算大,一般只需要數十TB的容量便已足夠,而資料倉儲的建置多半也採用集中化方式,將各個應用系統的資料,從各個系統抽取出來,經過資料清洗轉換後,再載入到資料倉儲裡。
由於架構相對簡單,數據模型直觀,相關的資料集中化的工具軟體及元資料(Metadata)管理的重要性並不突出,很多企業選擇了忽視這一部分。而到了大數據時代,由於非結構化資料的導入,資料量大了,企業擁有上百個TB的資料量成為常態。但資料架構還是集中式,工具軟體及元資料(Metadata)還是沒有被廣泛地應用。
今天技術演進已經到了雲時代。在企業內部,除了有各種本地應用系統,還有資料倉儲(Data Warehouse)和很多資料市集(Data Mart),大數據平台(Big Data Platform)和資料湖(Data Lake)往往也是不可缺少。除了本地私有雲平台;很多應用也會放到公有雲平台之上。在這樣一個分散式的資料架構中,如果為了管理與分析資料,還要把資料搬移複製,集中到某一個地方去,其成本將會非常可觀。因此,是否有辦法既不需要搬動資料,允許資料還是保留在各個應用系統裡,又能讓資料科學家們在需要的時候能夠非常方便地存取這些資料呢?於是,一個名為資料經緯(Data Fabric)的資料架構因此而誕生了。
在對的地點、時間獲取對的資料
有關資料經緯,市場分析機構Gartner和Forrester都有明確的定義。 Forrester寫到:「資料經緯是以一種智慧化和安全化的自助式服務,動態地協調分散式的資料來源,跨資料平台地提供整合和可信賴的資料,支援廣泛的不同應用的分析和使用場景。」如果用更通俗的語言來描述,那就是「讓需要使用數據的人,隨時都能知道數據位置、品質,並且可以方便地存取。」資料經緯的主要功能就是,把正確的資料,在正確的時間,傳送給正確的人。透過資料經緯架構,對的人可以從對的地點,在對的時間,獲取對的資料。
人的大腦裡有成萬上億個神經元,它們連接在一起,以非常快的速度處理和傳遞資訊。現代醫學還無法解釋這些資訊是如何傳遞的,只能說是以一種虛擬的方式來連接。不妨把資料經緯想像成一張虛擬的網,網上的每個節點就是一個IT系統。這張網並不能理解為一種點對點的連接,而是一種虛擬的連接,使資料可以在網路上迅速流動。
要實現資料經緯這樣的架構,有時候阻礙不是來自技術,而是人。很多時候,不同的業務部門把持著各自的資料,不願共用,怕共用資料會降低各部門的權威。亞馬遜的CEO貝佐斯就曾經在一個內部的高層會議上,對一票高管發火:「你們要麼共用資料,要麼離開公司!」因為,貝佐斯清楚地知道,發揮資料價值,給公司帶來業務上的優勢,是一家互聯網公司的命脈。如果任由個別高階管理者阻礙資料的共用,帶來的後果將是毀滅性的。雖然有人擔心資料共用會造成資料安全和隱私保護的問題,但這些問題都有相應的技術手段可解決,並不能成為阻礙資料共用的理由。
資料經緯須具備的四種能力
資料經緯可以同時給業務和技術團隊帶來明確的價值。從業務層面來看,由於企業能更容易地獲得高品質的資料,從而能更快和更精確地獲得企業資料洞察。資料科學家和業務人員能夠花更多時間在資料分析上,而不是去尋找和準備資料,可以給資料使用者提供更佳的自助服務體驗。
優質和全面的資料,更可以避免由於資料存取的限制而造成的資料分析偏差,從而提升企業資料的合規性和安全性。從技術層面來說,由於較少的資料複製的次數和數量,從而減少了資料傳遞整合的工作,方便維護資料品質和標準,也減少了硬體架構和存儲的開銷。由於減少了資料複製和大大優化了資料流程,加快並簡化了資料處理過程,從而透過建置自動化的整體資料策略,減少了資料存取管理的工作。 要實現上述資料經緯的目標,至少需要四種基本能力:
1.在資料之間建立虛擬連結,簡化資料存取的模式,從而減少資料複製的數量。
2.建立企業的資料目錄,並利用AI技術,自動化地實現基於語義和知識的分析,理解資料及其業務含義,並建立知識圖譜, 從而使資料目錄變得智慧化和自動化。能夠讓需要資料的使用者,隨時瞭解所需要的資料在哪裡、資料品質如何等。
3.建立自動化的資料平台,並且允許使用者透過自助服務的方式,輕易獲取資料。
4.透過提供整體的自動化策略,確保資料安全,增加資料的隱私和許可權保護,並提高資料的品質。
資料經緯是當前全球IT熱門議題之一,但國內知道的人還不多。20年前資料倉儲在國外興起後,用了6到8年才傳到國內。10年前大數據的概念在國外興起後,不到三年就被國內用戶廣泛接受。目前,國內市場可以用多快的速度接受並加以應用資料經緯的概念?且拭目以待!
<本文作者為台灣IBM公司雲端運算暨認知軟體事業部技術總監。>