隨著大數(shù)據(jù)與云原生的快速發(fā)展融匯交互,各技術領域又將來臨新一波迅雷之勢的挑戰(zhàn)和創(chuàng)變。利用云原生技術的簡便快捷、動態(tài)調度、按需伸縮等優(yōu)勢,如何加速大數(shù)據(jù)基礎軟件和系統(tǒng)的迭代更新頻率、確保整體環(huán)境的最終一致性,如何為數(shù)據(jù)庫提供極致的性能、彈性和無限擴展能力,以及由此帶來的運維模式轉型該如何應對,以上種種,都是我們當下需要率先突破的課題。
當下來看,不僅僅是技術上面的難題,很多企業(yè)依舊是使用的老一套大數(shù)據(jù)處理方案,但數(shù)據(jù)量日益增大,需求增多。傳統(tǒng)的數(shù)據(jù)中心無論是在性能、效率,還是在投資收益、安全性,已經(jīng)遠遠不能滿足新興應用的需求,數(shù)據(jù)中心業(yè)務急需新型大數(shù)據(jù)處理中心來支撐。除了傳統(tǒng)的高可靠、高冗余、綠色節(jié)能之外,新型的大數(shù)據(jù)中心還需應具備虛擬化、模塊化、彈性擴展、自動化等一系列特征,才能滿足具備大數(shù)據(jù)特征的應用需求。這些史無前例的需求,讓存儲系統(tǒng)的架構和功能都發(fā)生了前所未有的變化。
對于企業(yè)來說,大數(shù)據(jù)方面的挑戰(zhàn)包括:
·業(yè)務部門無清晰的大數(shù)據(jù)需求
·企業(yè)內部數(shù)據(jù)孤島嚴重
·數(shù)據(jù)可用性低、質量差
·數(shù)據(jù)相關管理技術和架構問題
·數(shù)據(jù)安全問題
·大數(shù)據(jù)人才缺乏
·數(shù)據(jù)開放和隱私的權衡
要更快速的釋放數(shù)據(jù)價值,一套完善的方案和系統(tǒng)是關鍵。而這一領域的佼佼者便是華為云一站式大數(shù)據(jù)解決方案,頗受業(yè)界認可。本文就從傳統(tǒng)大數(shù)據(jù)解決方案和大數(shù)據(jù)的特點出發(fā),來剖析為什么要選擇華為云的大數(shù)據(jù)解決方案。
一、海量數(shù)據(jù)處理方案
1.1 大數(shù)據(jù)存儲
1.1.1 傳統(tǒng)數(shù)據(jù)存儲
通常業(yè)務系統(tǒng)產(chǎn)生的大量日志,傳統(tǒng)的處理方式是采用集中存儲。集中存儲就是指有一臺大型主機或多臺主機組成中心節(jié)點,數(shù)據(jù)集中存儲于這個中心節(jié)點上,并且整個系統(tǒng)的所有業(yè)務單元都集中部署在這個中心節(jié)點上, 數(shù)據(jù)計算幾乎完全 依賴于一臺中、大型的中心計算機的處理能力。系統(tǒng)所有的功能均由其集中處理。在集中式系統(tǒng)中,每個終端或客戶端僅僅負責數(shù)據(jù)的錄入和輸出,而數(shù)據(jù)的存儲與控制處理完全交給主機來完成。集中式存儲最大的特點就是部署結構簡單。放在現(xiàn)在整個環(huán)境中,需要面臨以下考驗:
·系統(tǒng)安全性:需要對抗DDoS攻擊,傳統(tǒng)自建數(shù)據(jù)庫需要自行實現(xiàn),且實現(xiàn)成本較高,同時也需自行修復數(shù)據(jù)庫安全漏洞。
·硬件成本:為了能部署數(shù)據(jù)庫,開發(fā)者需要購買費用高昂的數(shù)據(jù)庫服務器。一次性的硬件成本很高。而且考慮到硬件損耗,后期還會有維修和更換硬件的成本。
·運維成本:需要花費大量的人力物力來維護硬件、維護操作系統(tǒng)、維護數(shù)據(jù)庫軟件。
·可擴展性:傳統(tǒng)自建數(shù)據(jù)庫采用物理硬盤作為存儲空間,受單盤容量的限制,并不支持彈性升級,要增減節(jié)點,也比較難實現(xiàn),如果某個數(shù)據(jù)庫超過了這個存儲的限制,需要運維和開發(fā)的人員一起進行數(shù)據(jù)歸檔,來降低數(shù)據(jù)庫容量。
·可靠性:單機實例,沒有數(shù)據(jù)災備。需要額外成本建立異地的數(shù)據(jù)災備。不管是主從架構、還是負載均衡還是自動容災方面,傳統(tǒng)自建數(shù)據(jù)庫都需要自行實現(xiàn)。
傳統(tǒng)數(shù)據(jù)庫或數(shù)倉產(chǎn)品面臨數(shù)據(jù)存不下、查不出、擴容難、成本高的痛點。因此,如何對整個傳統(tǒng)數(shù)據(jù)庫升級躍遷,是企業(yè)面臨的關鍵問題之一。
一方面是傳統(tǒng)數(shù)據(jù)庫不能滿足互聯(lián)網(wǎng)企業(yè)新需求;ヂ(lián)網(wǎng)企業(yè)因業(yè)務快速擴展,需實時處理海量數(shù)據(jù),并發(fā)訪問量非常大。傳統(tǒng)數(shù)據(jù)庫基于專用服務器和高端存儲構成共享存儲環(huán)境,設備造價昂貴,且性能和擴展性極其有限,無法滿足互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)庫高并發(fā)、實時在線需求。
另一方面是傳統(tǒng)數(shù)據(jù)庫不能適應云計算技術新需求。云計算公司依托技術積累,發(fā)起由IOE架構向基于廉價PC服務器技術的變革,降低IT服務支出,倡導以軟件為中心的架構演變,降低數(shù)據(jù)庫維護升級的風險。傳統(tǒng)數(shù)據(jù)庫環(huán)境是集中在一個地點的高穩(wěn)定、高可靠、高可用的高端企業(yè)級設備,制約云計算企業(yè)未來業(yè)務發(fā)展,增加長期運營成本。
傳統(tǒng)數(shù)據(jù)存儲面臨著以下四個問題:
·無法應對每秒上萬次的讀寫請求,硬盤IO此時也將變?yōu)樾阅芷款i。
·表中存儲記錄數(shù)量有限,橫向可擴展能力有限,縱向數(shù)據(jù)可承受能力也是有限的,面對海量數(shù)據(jù),勢必涉及到分庫分表,難以維護。大數(shù)據(jù)查詢SQL效率極低,數(shù)據(jù)量到達一定程度時,查詢時間會呈指數(shù)級別增長。
·難以橫向擴展,無法簡單地通過增加硬件、服務節(jié)點來提高系統(tǒng)性能。
·對于需要24小時不間斷提供服務的網(wǎng)站來說,數(shù)據(jù)庫升級、擴展將是一件十分麻煩的事,往往需要停機維護、數(shù)據(jù)遷移。為了避免服務間斷,如果網(wǎng)站使用服務器集群,則根據(jù)集群策略,需要相應的考慮主從一致性、集群擴展性等一系列問題。
那么結合現(xiàn)有的云原生技術和大數(shù)據(jù)技術,數(shù)據(jù)倉庫又該是何種形式呢?
1.1.2 云大數(shù)據(jù)倉庫
以華為云數(shù)據(jù)倉庫 GaussDB(DWS)新一代云數(shù)倉為例,GaussDB(DWS)作為新一代全場景數(shù)據(jù)倉庫,具備極致性能、高擴展、極簡易用、一站式分析等特性,滿足大數(shù)據(jù)時代企業(yè)構建新型數(shù)倉的需求。融合分析能力是云原生數(shù)據(jù)倉庫GaussDB(DWS)核心亮點之一。GaussDB(DWS)采用一套SQL引擎,支持Oracle、Mysql、HDFS等多源數(shù)據(jù)融合分析,并通過算子下推、加速集群等技術對分析性能進行了大幅優(yōu)化,在數(shù)據(jù)免搬遷的前提下,實現(xiàn)了跨源數(shù)據(jù)免搬遷、高效分析。
能夠在運行時進行按需擴展的能力是任何企業(yè)成長的先決條件。因為這種能力讓企業(yè)可以專注于追求商業(yè)目標,而不用擔心存儲空間大小的限制。傳統(tǒng)數(shù)據(jù)庫將所有文件和資源都存儲在同一主機中,而云原生數(shù)據(jù)庫GaussDB則不同,它不僅允許你以不同的方式存儲,而且不受存儲空間問題的影響。
比如我們從MySQL數(shù)據(jù)庫數(shù)據(jù)遷移至GaussDB:
1、導出mysql數(shù)據(jù)
1、下載數(shù)據(jù)并上傳至GaussDB服務器
2、導入GaussDB
可見遷移十分便捷。GaussDB 提供配套的遷移工具,支持使用dump和load將數(shù)據(jù)庫中的數(shù)據(jù)導出成標準化通用文件,可使用GaussDB的 load導入Oracle、MySQL、SQLserver等數(shù)據(jù)庫導出的文件,同時也可以使用dump導出GaussDB的數(shù)據(jù),然后導入到其他數(shù)據(jù)庫或者其他GaussDB數(shù)據(jù)庫。可支持Teradata、Oracle/Exadata、Greenplum等數(shù)據(jù)分析系統(tǒng)的平滑遷移,而且支持SQL 2003標準,兼容Oracle/Teradata的部分語法和數(shù)據(jù)結構,支持全局事務、存儲過程、數(shù)據(jù)強一致性保證。且GaussDB庫倉一體,邏輯集群,支持一套集群容納數(shù)據(jù)集市、數(shù)據(jù)倉庫。
GaussDB(DWS)云原生數(shù)據(jù)倉庫支持冷熱數(shù)據(jù)多溫存儲,熱數(shù)據(jù)存儲于數(shù)倉內部,以獲得良好的查詢分析性能,冷數(shù)據(jù)可分級存儲到更低成本的OBS中。不僅降低存儲成本,并且在OBS內,通過合法鑒權,數(shù)據(jù)能夠共享開放,供其他引擎處理分析。GaussDB(DWS)當前已經(jīng)支持表內不同分區(qū)間的冷熱數(shù)據(jù)存儲,未來還將支持更細粒度、更加智能的冷熱數(shù)據(jù)管理。
企業(yè)積累的海量數(shù)據(jù)及各種數(shù)據(jù)資產(chǎn),體量龐大,需高性能大數(shù)據(jù)平臺支撐進行全量數(shù)據(jù)分析和挖掘。企業(yè)可以依托DWS+BI工具打造全局的、直觀的、關聯(lián)性的、可視化的運營數(shù)字化分析平臺 ,以數(shù)據(jù)分析來驅動業(yè)務價值提升及管理提升。
以國內某知名保險客戶的商業(yè)數(shù)據(jù)庫遷移為例。首先是要求高性能,客戶上線業(yè)務為保險核心業(yè)務,這塊業(yè)務需要數(shù)據(jù)庫具備高并發(fā)、大表查詢的能力,尤其是對接互聯(lián)網(wǎng)和渠道的業(yè)務,對數(shù)據(jù)庫性能要求很高。在保單的批量下單場景方面,GaussDB(for MySQL)憑借其優(yōu)秀的性能完美支撐業(yè)務核心交易場景。
而且GaussDB跨AZ部署高可用,數(shù)據(jù)安全可靠。這個特性無論是在國內,還是與海外友商相比都是領先的,它能做到跨3AZ部署,任何一個節(jié)點故障都不會對業(yè)務帶來致命影響。故障切換速度做到10秒以內,做到數(shù)據(jù)零丟失,采用白名單、VPC網(wǎng)絡、數(shù)據(jù)多副本存儲等全方位的手段,對數(shù)據(jù)庫數(shù)據(jù)訪問、存儲、管理等各個環(huán)節(jié)提供安全保障。且GaussDB能夠快速備份恢復,采用快照的方式,相比傳統(tǒng)MySQL物理備份,整個恢復時間加快了數(shù)倍;诘讓哟鎯ο到y(tǒng)的多時間點特性,不需增量日志回放,可直接實現(xiàn)按時間點回滾。備份及恢復邏輯下沉到各存儲節(jié)點,本地訪問數(shù)據(jù)并直接與第三方存儲系統(tǒng)交互,實現(xiàn)高并發(fā)、高性能。
針對實時檢索、復雜BI SQL定制并行查詢功能,開啟后同樣多表關聯(lián)查詢速度提升10+ 倍。
1.2 大數(shù)據(jù)BI快速展示
既然談到了大數(shù)據(jù)BI這條業(yè)務線那就把他講到底。
1.2.1大數(shù)據(jù)BI產(chǎn)業(yè)鏈結構分析
大數(shù)據(jù)BI產(chǎn)業(yè)鏈結構總體上由數(shù)據(jù)源、數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析以及數(shù)據(jù)展現(xiàn)五個方面構成。
第一、從數(shù)據(jù)來源角度
大數(shù)據(jù)應用的數(shù)據(jù)來源,不僅僅包括非結構化的數(shù)據(jù),還有各種系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)。其中非結構化數(shù)據(jù)主要是集中在互聯(lián)網(wǎng)以及一些社交網(wǎng)站上的數(shù)據(jù)和一些機器設備的數(shù)據(jù),這些都構成了大數(shù)據(jù)應用的數(shù)據(jù)來源。對于大數(shù)據(jù)的分析工具來說,現(xiàn)階段對非結構化的數(shù)據(jù)分析的比較多。
BI系統(tǒng)則是在數(shù)據(jù)集成方面的技術越來越成熟。對于數(shù)據(jù)的提取和各種數(shù)據(jù)挖掘來說,數(shù)據(jù)集成平臺會幫助企業(yè)實現(xiàn)數(shù)據(jù)的流通和交互使用,在企業(yè)內部實施BI應用就是為了可以更好地對數(shù)據(jù)進行分享和使用。
其中數(shù)據(jù)源由企業(yè)內部數(shù)據(jù)和外部數(shù)據(jù)構成。企業(yè)的內部數(shù)據(jù)通常與具體業(yè)務緊密相關,且多數(shù)來自我們可以掌控的軟件系統(tǒng),如CRM、ERP或者HR系統(tǒng)。ETL負責將數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數(shù)據(jù)倉庫中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎。最后通過數(shù)據(jù)展現(xiàn)工具對數(shù)據(jù)進行可視化分析,滿足各種應用需求。多數(shù)企業(yè)對大數(shù)據(jù)BI平臺數(shù)據(jù)權限管控、探索式自主分析以及快速搭建業(yè)務數(shù)據(jù)模型等功能有著強烈需求,這幾種功能被選擇的比例高達90%以上;
第二、從發(fā)展方向角度
BI的發(fā)展要從傳統(tǒng)的商務智能模式開始轉換。對于企業(yè)來說,BI不僅僅是一個IT項目,更是一種管理和思維的方式,從技術的部署到業(yè)務的流程規(guī)劃,BI正在迎來新的發(fā)展。對于大數(shù)據(jù)來說,現(xiàn)階段更多的大數(shù)據(jù)關注在非結構化數(shù)據(jù),不同的數(shù)據(jù)分析工具的出現(xiàn)和行業(yè)內的應用范圍不斷的加大。對于大數(shù)據(jù)應用來說,怎么與應用的行業(yè)進行深層次的結合才是最重要的。
第三、從工具的角度
傳統(tǒng)BI使用的是ETL、數(shù)據(jù)倉庫、OLAP、可視化報表技術,屬于應用和展示層技術,目前都處于淘汰的邊緣。因為它們解決不了海量數(shù)據(jù)(包括結構化與非結構化)的處理問題。而大數(shù)據(jù)應用的是一個完整的技術體系,包括用Hadoop、流處理等技術解決海量的結構化、非結構化數(shù)據(jù)的ETL問題,用Hadoop、MPP等技術解決海量數(shù)據(jù)的計算問題,用redis、HBASE等方式解決高效讀的問題,用Impala等技術解決在線分析等問題。
1.2.2 華為云一站式大數(shù)據(jù)BI方案
基于華為云數(shù)據(jù)倉庫服務GaussDB(DWS)及基礎服務,華為云一站式大數(shù)據(jù)BI可以5分鐘完成自動化報表制作,可輕松打通多個業(yè)務系統(tǒng)數(shù)據(jù),整合多源數(shù)據(jù),構建企業(yè)級可視化分析決策平臺。通過類Excel的設計器一鍵連接數(shù)據(jù)源,拖拽字段綁定單元格,報表即可完成制作。學習成本低,產(chǎn)品上手快,操作簡便、快速,總結起來就是“易學易用易集成”。
方案優(yōu)勢:
1、一站式
一站式大數(shù)據(jù)分析平臺,包括數(shù)據(jù)采集、清洗、整合、存儲、計算、建模、訓練、展現(xiàn)、協(xié)作等,一個平臺上完成全流程數(shù)據(jù)分析任務。
2、高性能
利用列存儲和內存計算,實現(xiàn)海量數(shù)據(jù)秒級響應。AI深度分析集成多種算法,挖掘潛在價值關系、模式和趨勢,構建數(shù)據(jù)模型,做出業(yè)務預測與洞察。
3、極致易用
上線周期以周為單位,平臺支持全部云端OS,支持公有云、私有云和混合云架構。操作簡單,業(yè)務人員也能輕松、快速地制作并分析數(shù)據(jù)報告。
4、移動跨屏
無縫支持各種電腦和手機終端系統(tǒng),并在這些終端設備上保持一致、易用的用戶體驗,隨時隨地通過移動設備進行數(shù)據(jù)分析。
數(shù)字化轉型的最終目的并非是獲得數(shù)據(jù),而是挖掘數(shù)據(jù)的價值,實現(xiàn)數(shù)據(jù)驅動業(yè)務增長。華為云大數(shù)據(jù)BI解決方案定位于“面向業(yè)務人員的可視化分析”工具,讓零基礎的業(yè)務人員也能自主完成數(shù)據(jù)進行分析、挖掘與洞察,讓數(shù)據(jù)真正走進業(yè)務,推動業(yè)務增長,實現(xiàn)降本增效。
華為云數(shù)據(jù)可視化DLV服務一站式適配云上云下多種數(shù)據(jù)源,提供豐富多樣的2D、3D可視化組件,采用拖拽式自由布局,旨在幫助快速定制和應用屬于自己的數(shù)據(jù)大屏。目前華為云還提供數(shù)據(jù)可視化DLV的基礎版免費試用機會,可在華為云官網(wǎng)申請體驗。
華為云數(shù)據(jù)可視化DLV具備如下優(yōu)勢:
1.豐富多樣的可視化組件
提供豐富的可視化組件,包括常用的數(shù)據(jù)圖表、圖形、控件等
2.專業(yè)級地理信息可視化
支持繪制地理軌跡、地理飛線、熱力分布、地域區(qū)塊、3D地球等效果,支持地理數(shù)據(jù)多層疊加
3.可視化編輯器
拖拽即可完成組件自由配置與布局、所見即所得,無需編程就能輕松搭建可視化大屏,并且依據(jù)投放設備分辨率,自由定制大屏尺寸
4.多種數(shù)據(jù)源支持
無縫集成華為云數(shù)據(jù)倉庫服務、數(shù)據(jù)湖探索服務、關系型數(shù)據(jù)庫、對象存儲服務等,支持本地CSV、在線API及企業(yè)內部私有云數(shù)據(jù)
通過以上案例,我們不難發(fā)現(xiàn),華為云大數(shù)據(jù)BI通過多維度的數(shù)據(jù)統(tǒng)計方式,能更加深入地了解到消費者的消費行為模式及趨勢。作為一種新興科技應用場景,大數(shù)據(jù)BI正在成為未來智慧商業(yè)發(fā)展的重要方向之一,也將給傳統(tǒng)商業(yè)帶來革命性變革。
隨著新經(jīng)濟時代的到來,越來越多的人開始意識到“數(shù)字經(jīng)濟”所具有的巨大潛力,而大數(shù)據(jù)正是其中最關鍵的一環(huán),華為云以資源多與技術強的優(yōu)勢,能夠更好地為客戶提供差異化定制化服務,提升企業(yè)市場競爭力,獲取更大市場份額。
剛好華為云的雙11活動還在繼續(xù),截止到11月30日,訪問華為云官網(wǎng)活動頁面就可領取10000元的滿減紅包:
還有數(shù)據(jù)庫、服務器、云安全等產(chǎn)品也有非常給力的優(yōu)惠,快點入手操作起來吧!