作者:Neo4j大中華區(qū)總經(jīng)理方俊強(qiáng)
呈指數(shù)級(jí)增長(zhǎng)的大數(shù)據(jù)已然超過了傳統(tǒng)數(shù)據(jù)庫(kù)的管理范疇。信息不僅在數(shù)量上增加,而且也更加復(fù)雜。企業(yè)正在構(gòu)建與運(yùn)營(yíng)和客戶相關(guān)的龐大數(shù)據(jù)存儲(chǔ)庫(kù),每個(gè)實(shí)體都有多個(gè)信息點(diǎn)和信息層。問題在于如何以有意義和及時(shí)的方式存儲(chǔ)、處理和分析數(shù)據(jù)。
許多企業(yè)正轉(zhuǎn)向圖數(shù)據(jù)科學(xué)存儲(chǔ)數(shù)據(jù)并產(chǎn)生洞察力。對(duì)圖數(shù)據(jù)科學(xué)的需求不斷增加,遍及各行各業(yè),包括金融服務(wù)、旅游、零售、公共部門和醫(yī)療保健等,希望解決其復(fù)雜的問題。
數(shù)據(jù)庫(kù)平臺(tái) vs 圖數(shù)據(jù)科學(xué)平臺(tái)
如今,通過二維或電子表格顯示客戶數(shù)據(jù)庫(kù)是一種極其有限的方法。這種方法可以存儲(chǔ)和查詢數(shù)據(jù),但在數(shù)千行和單元格中,查詢模式并不是一個(gè)簡(jiǎn)單或快速的過程。實(shí)現(xiàn)不同領(lǐng)域數(shù)據(jù)的關(guān)聯(lián)極其困難:例如,不僅要確定客戶是誰(shuí),還包括他們購(gòu)買了什么、如何購(gòu)買、在哪里購(gòu)買以及為何購(gòu)買。
Neo4j圖數(shù)據(jù)科學(xué)利用數(shù)十億甚至數(shù)萬(wàn)億個(gè)數(shù)據(jù)點(diǎn)之間的關(guān)聯(lián)和關(guān)系,讓連接的數(shù)據(jù)“自己說(shuō)話”,例如運(yùn)行無(wú)監(jiān)督圖算法在噪聲中發(fā)現(xiàn)信號(hào)。通過客戶數(shù)據(jù)庫(kù),可以顯示客戶在社區(qū)如何互動(dòng),對(duì)數(shù)據(jù)分類提供有用信息。
使用圖捆綁產(chǎn)品和服務(wù)可以實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化,建立每個(gè)產(chǎn)品和服務(wù)的統(tǒng)一數(shù)據(jù)庫(kù)及其規(guī)則和關(guān)系,以確保捆綁適當(dāng)?shù)姆⻊?wù)。擁有Neo4j圖數(shù)據(jù)庫(kù)使企業(yè)更容易管理其商業(yè)產(chǎn)品線層次結(jié)構(gòu)。
另一個(gè)實(shí)例是一家主流汽車制造商通過創(chuàng)建用于測(cè)試數(shù)據(jù)的知識(shí)圖譜可以縮短新車的上市時(shí)間。來(lái)自不同領(lǐng)域的工程師一直在以多種方式進(jìn)行測(cè)試,并使用不同工具以各種格式存儲(chǔ)測(cè)試數(shù)據(jù)。這導(dǎo)致了數(shù)據(jù)的不一致和孤立,對(duì)其他團(tuán)隊(duì)毫無(wú)用處。相反,Neo4j知識(shí)圖譜關(guān)聯(lián)了所有的產(chǎn)品驗(yàn)證生命周期數(shù)據(jù),并允許在企業(yè)內(nèi)整合領(lǐng)域和功能,定義關(guān)鍵元數(shù)據(jù),例如測(cè)試類型、測(cè)量特征和測(cè)量條件。為測(cè)試、子測(cè)試和測(cè)量定義明確的語(yǔ)義,使工程師能夠跨域和平臺(tái)溝通。
預(yù)測(cè)而非應(yīng)對(duì)的方法
在競(jìng)爭(zhēng)激烈的行業(yè)中,企業(yè)需要領(lǐng)先一步。 例如,金融機(jī)構(gòu)通常會(huì)在欺詐已經(jīng)發(fā)生時(shí)才來(lái)解決。借助Neo4j圖數(shù)據(jù)科學(xué),個(gè)人和實(shí)體之間的可疑關(guān)聯(lián)變得可見,可以更早地實(shí)施干預(yù)。知識(shí)圖譜可以識(shí)別鏈接個(gè)體的鏈條和環(huán),對(duì)與可疑實(shí)體有關(guān)聯(lián)的關(guān)系做質(zhì)量、數(shù)量和距離的評(píng)分。
當(dāng)識(shí)別出一個(gè)欺詐圈時(shí),也可以使用相似度算法來(lái)識(shí)別數(shù)據(jù)中其他潛在欺詐圈。一旦確定了預(yù)測(cè)特定結(jié)果的模型,即可在未來(lái)生成更精準(zhǔn)的預(yù)測(cè)。
某財(cái)政部正使用Neo4j圖數(shù)據(jù)科學(xué)繪制約150,000個(gè)人、公司和文件,以及這些實(shí)體之間的約750,000個(gè)關(guān)系。如果檢測(cè)到可疑交易,則會(huì)分析圖中所有與案例相關(guān)的信息和文件。法律專家還可以發(fā)現(xiàn)僅在第二或第三層次上才明顯的關(guān)系,而不是只關(guān)注表層關(guān)系。
解鎖供應(yīng)鏈
過去幾年,供應(yīng)鏈面臨極大挑戰(zhàn)。上海和香港等許多港口都強(qiáng)烈感受到這一點(diǎn),這些港口是全球主要的樞紐和貨物運(yùn)輸中轉(zhuǎn)站。解鎖極其復(fù)雜的路線和參與者網(wǎng)絡(luò),嘗試重新安排每天穿越海洋的數(shù)萬(wàn)艘集裝箱船只的路線是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。
就本質(zhì)而言,供應(yīng)鏈管理是動(dòng)態(tài)的,有許多變化的環(huán)節(jié),并且可能在任何給定點(diǎn)出現(xiàn)瓶頸。但傳統(tǒng)數(shù)據(jù)庫(kù)生成的數(shù)據(jù)量大、細(xì)節(jié)多,缺乏實(shí)時(shí)、準(zhǔn)確的信息處理能力。
相比較,Neo4j知識(shí)圖譜擅長(zhǎng)繪制復(fù)雜、相互關(guān)聯(lián)的供應(yīng)鏈,即使應(yīng)對(duì)海量數(shù)據(jù)也能保持高性能。固有的以關(guān)系為中心的方法使他們能夠更好地管理、讀取數(shù)據(jù)并實(shí)現(xiàn)可視化。與傳統(tǒng) SQL 數(shù)據(jù)庫(kù)相比,Neo4j圖數(shù)據(jù)庫(kù)的查詢響應(yīng)速度通常快100倍。
圖數(shù)據(jù)科學(xué)對(duì)中國(guó)企業(yè)而言擁有巨大的應(yīng)用潛力,中國(guó)占全球人口的1/5,不僅人口眾多,也是經(jīng)濟(jì)增長(zhǎng)最快的地區(qū)之一。通過圖數(shù)據(jù)科學(xué)等技術(shù)充分利用大數(shù)據(jù)潛力的企業(yè)理當(dāng)成為其所在領(lǐng)域的領(lǐng)導(dǎo)者。