(作者:王積杰,IBM 大中華區(qū) 云計算與認知軟件事業(yè)部 數(shù)據(jù)與人工智能 信息架構(gòu)產(chǎn)品總監(jiān) )
IT世界,每隔10年,就會出現(xiàn)一個IT的風(fēng)口。20年前是數(shù)據(jù)倉庫,10年前是大數(shù)據(jù)和數(shù)據(jù)湖,今天,一個名為Data Fabric (數(shù)據(jù)經(jīng)緯)的數(shù)據(jù)架構(gòu)浮出水面,開始引發(fā)人們的關(guān)注。
我們首先來看,當今的IT數(shù)據(jù)架構(gòu)和十多年前有什么不同了。在數(shù)據(jù)倉庫時代,企業(yè)的數(shù)據(jù)量還不算大,一般幾十個TB, 數(shù)據(jù)倉庫的建設(shè)一般采用中心化的方式,將各個應(yīng)用系統(tǒng)的數(shù)據(jù),從各個系統(tǒng)抽取出來,清洗轉(zhuǎn)換后,加載到數(shù)據(jù)倉庫里。由于架構(gòu)相對簡單,數(shù)據(jù)模型直觀,相關(guān)的數(shù)據(jù)集成的工具軟件及元數(shù)據(jù)管理的重要性并不突出,很多客戶選擇了忽視這一部分。而到了大數(shù)據(jù)時代,由于非結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)入,數(shù)據(jù)量大了,企業(yè)擁有上百個TB的數(shù)據(jù)成為了日常。但數(shù)據(jù)架構(gòu)還是集中式,工具軟件及元數(shù)據(jù)還是沒有被廣泛地應(yīng)用。
今天已經(jīng)到了一個云的時代。在企業(yè)內(nèi)部,除了有各種本地應(yīng)用系統(tǒng),還有數(shù)據(jù)倉庫(Data Warehouse)和很多數(shù)據(jù)集市(Data Mart),大數(shù)據(jù)平臺( Big Data Platform)和數(shù)據(jù)湖(Data Lake)往往也是不可缺少,除了本地私有云平臺,往往很多應(yīng)用也會放到公有云平臺之上。在這樣一個分布式的數(shù)據(jù)架構(gòu)中,如果為了獲取數(shù)據(jù),還要把數(shù)據(jù)搬移復(fù)制,集中到某一個地方去,其成本將會非常之大。因此,是否有辦法既不需要搬動數(shù)據(jù),允許數(shù)據(jù)還是保留在各個應(yīng)用系統(tǒng)里,又能讓數(shù)數(shù)據(jù)科學(xué)家們在需要的時候能夠非常方便地獲取這些數(shù)據(jù)呢?于是,一個名為Data Fabric (數(shù)據(jù)經(jīng)緯)的數(shù)據(jù)架構(gòu)因此而誕生了。
有關(guān)Data Fabric (數(shù)據(jù)經(jīng)緯), Gartner和Forrester 都有明確的定義,其中,Forrester寫到:“Data Fabric (數(shù)據(jù)經(jīng)緯)是以一種智能和安全的并且是自服務(wù)的方式,動態(tài)地協(xié)調(diào)分布式的數(shù)據(jù)源,跨數(shù)據(jù)平臺地提供集成和可信賴的數(shù)據(jù),支持廣泛的不同應(yīng)用的分析和使用場景”。這些語句也許有些拗口,我們可以用更通俗的語言來描述,那就是,”使需要用數(shù)據(jù)的人,隨時能夠了解到他要的數(shù)據(jù)在哪里,數(shù)據(jù)質(zhì)量如何,他可以如何方便地獲取他需要的數(shù)據(jù)! Data Fabric (數(shù)據(jù)經(jīng)緯)的主要功能就是,把正確的數(shù)據(jù),在正確的時間,傳送給正確的人。通過 Data Fabric (數(shù)據(jù)經(jīng)緯), 對的人可以從對的地點,在對的時間,獲取對的數(shù)據(jù)。
我們可以把Data Fabric (數(shù)據(jù)經(jīng)緯)想象成一張?zhí)摂M的網(wǎng),網(wǎng)上的每個節(jié)點就是一個 IT系統(tǒng)。人的大腦里有成萬上億個神經(jīng)元,他們連接在一起,以非常快的速度處理和傳遞信息,F(xiàn)代醫(yī)學(xué)還無法解釋這些信息是如何傳遞的,只能說是以一種虛擬的方式來連接。這里Data Fabric (數(shù)據(jù)經(jīng)緯)也一樣,這張網(wǎng)并不能理解為一種點對點的連接,而是一種虛擬的連接,可以使數(shù)據(jù)在網(wǎng)上迅速流動。
要實現(xiàn)Data Fabric (數(shù)據(jù)經(jīng)緯)這樣的架構(gòu),有時候阻礙不是來自技術(shù),而是人。很多時候,不同的業(yè)務(wù)部門把持著各自的數(shù)據(jù),不愿共享,怕共享數(shù)據(jù)會降低本部門的權(quán)威。亞馬遜的 CEO 貝索斯就曾經(jīng)在一個內(nèi)部的高層會議上,對一眾高管發(fā)火,他說:“你們要么共享數(shù)據(jù),要么離開公司!” 因為,貝索斯清楚地知道,發(fā)揮數(shù)據(jù)價值,給公司帶來業(yè)務(wù)上的回報,是一家互聯(lián)網(wǎng)公司的命脈。如果任由個別高管阻礙這種數(shù)據(jù)的共享,帶來的后果將是毀滅性的。雖然有的人擔(dān)心,數(shù)據(jù)共享會帶來數(shù)據(jù)安全和隱私保護的問題,但這些問題都有相應(yīng)的技術(shù)手段來解決,并不能成為阻礙數(shù)據(jù)共享的理由。
Data Fabric (數(shù)據(jù)經(jīng)緯) 可以同時給業(yè)務(wù)和技術(shù)團隊帶來明確的價值。從業(yè)務(wù)層面來看,由于企業(yè)能更容易地獲得高質(zhì)量的數(shù)據(jù),從而能更快和更精確地獲得企業(yè)數(shù)據(jù)洞察。數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員能夠花更多時間在數(shù)據(jù)分析上,而不是去尋找和準備數(shù)據(jù),可以給數(shù)據(jù)使用者提供完美的自我服務(wù)的數(shù)據(jù)消費體驗。優(yōu)質(zhì)和全面的數(shù)據(jù),可以避免由于數(shù)據(jù)訪問的限制而造成的數(shù)據(jù)分析偏差,從而可以提升企業(yè)數(shù)據(jù)的合規(guī)性和安全性。 從技術(shù)層面來說,由于較少的數(shù)據(jù)復(fù)制的次數(shù)和數(shù)量,從而減少了數(shù)據(jù)集成的工作,方便維護數(shù)據(jù)質(zhì)量和標準,也減少了硬件架構(gòu)和存儲的開銷。 由于減少了數(shù)據(jù)復(fù)制和大大優(yōu)化了數(shù)據(jù)流程,加快并簡化了數(shù)據(jù)處理過程,從而通過實施自動化的整體數(shù)據(jù)策略,減少了數(shù)據(jù)訪問管理的工作。
要實現(xiàn)上述的Data Fabric (數(shù)據(jù)經(jīng)緯)的目標,至少需要四個方面的基本能力:
1) 能夠在數(shù)據(jù)之間建立虛擬鏈接,簡化數(shù)據(jù)訪問的模式,從而減少數(shù)據(jù)復(fù)制的數(shù)量。
2) 需要建立一個企業(yè)的數(shù)據(jù)目錄,并需要利用AI技術(shù),自動化地實現(xiàn)基于語義和知識的分析,理解數(shù)據(jù)及其業(yè)務(wù)含義,并建立知識圖譜, 從而使數(shù)據(jù)目錄變得智能化和自動化。能夠讓需要數(shù)據(jù)的用戶,隨時了解他所需要的數(shù)據(jù)在哪里、數(shù)據(jù)質(zhì)量如何等。
3) 建立自動化的數(shù)據(jù)平臺,并且允許用戶通過自服務(wù)的方式,訪問并獲取數(shù)據(jù)。
4) 通過提供整體的自動化策略,確保數(shù)據(jù)安全,增加數(shù)據(jù)的隱私和權(quán)限保護,并提高數(shù)據(jù)的質(zhì)量。
Data Fabric (數(shù)據(jù)經(jīng)緯)目前是一個IT熱點,眾多國際著名的 IT公司包括IBM、informatica和 Telend等,均推出了針對 Data Fabric 的解決方案。其中,IBM 公司的Cloud Pak for Data針對上述Data Fabric (數(shù)據(jù)經(jīng)緯)必須具備的四個基本能力,都能給予很好的支持。IBM早在十多年前,就已經(jīng)推出了有關(guān)數(shù)據(jù)虛擬化的方案Data Virtualization, 目前這個方案的功能日趨豐富。IBM的數(shù)據(jù)目錄Watson Knowledge Catalog是業(yè)界最強大的智能數(shù)據(jù)目錄解決方案,其中大量使用了IBM企業(yè)級 AI和機器學(xué)習(xí)的技術(shù),使數(shù)據(jù)目錄智能化和自動化,并具有知識圖譜的能力,方便業(yè)務(wù)用戶使用。IBM數(shù)據(jù)目錄方案內(nèi)嵌了數(shù)據(jù)安全和數(shù)據(jù)隱私保護的功能,確保在數(shù)據(jù)共享的過程中能符合GDPR的數(shù)據(jù)隱私保護要求。同時,IBM作為一個老牌的專業(yè)數(shù)據(jù)集成的供應(yīng)商,其數(shù)據(jù)復(fù)制和數(shù)據(jù)集成的自服務(wù)能力也日趨完善。IBM Cloud Pak for Data 應(yīng)該是目前業(yè)界應(yīng)對 Data Fabric (數(shù)據(jù)經(jīng)緯)功能最為完善的數(shù)據(jù)平臺。
Data Fabric (數(shù)據(jù)經(jīng)緯)這個概念在國際上已經(jīng)熱起來了,但目前國內(nèi)的IT用戶知道的人還不多。20年前數(shù)據(jù)倉庫在國外興起后,用了6到8年才傳到中國。10年前大數(shù)據(jù)的概念在國外興起后,不到三年就被中國用戶廣泛接受。目前這個 Data Fabric (數(shù)據(jù)經(jīng)緯)概念,中國可以用多快的速度接受并加以應(yīng)用呢?我們拭目以待!