4月20日,袋鼠云成功舉行了以“數(shù)實(shí)融合,韌性生長(zhǎng)”為主題的2023春季生長(zhǎng)大會(huì)。會(huì)上,袋鼠云自主研發(fā)的一站式大數(shù)據(jù)基礎(chǔ)軟件——數(shù)棧V6.0產(chǎn)品矩陣全新發(fā)布。對(duì)旗下大數(shù)據(jù)基礎(chǔ)平臺(tái)、大數(shù)據(jù)開(kāi)發(fā)與治理、數(shù)據(jù)智能分析與洞察三大模塊的全線產(chǎn)品進(jìn)行全新升級(jí),并重點(diǎn)發(fā)布了企業(yè)級(jí)數(shù)據(jù)計(jì)算與存儲(chǔ)平臺(tái)——自研大數(shù)據(jù)引擎 EasyMR。(免費(fèi)試用產(chǎn)品https://www.dtstack.com/dtengine/easymr?src=dsygzh)
袋鼠云作為國(guó)內(nèi)領(lǐng)先的數(shù)字化基礎(chǔ)軟件與應(yīng)用服務(wù)商,自始自終堅(jiān)持自主創(chuàng)新,專(zhuān)注大數(shù)據(jù)基礎(chǔ)軟件研發(fā),利用先進(jìn)技術(shù)賦能更多行業(yè)客戶(hù)數(shù)字化轉(zhuǎn)型,助力發(fā)掘和釋放數(shù)據(jù)資源的潛在價(jià)值。
全新發(fā)布數(shù)棧V6.0產(chǎn)品矩陣
袋鼠云產(chǎn)研負(fù)責(zé)人思樞首先介紹了數(shù)棧V6.0全新產(chǎn)品矩陣的落地進(jìn)展以及產(chǎn)品升級(jí)方向。通過(guò)對(duì)多年數(shù)字化實(shí)踐沉淀的梳理、重構(gòu)和升級(jí),數(shù)棧V6.0形成了大數(shù)據(jù)基礎(chǔ)平臺(tái)層+大數(shù)據(jù)開(kāi)發(fā)與治理層+數(shù)據(jù)分析與洞察平臺(tái)層的全新數(shù)字化產(chǎn)品矩陣,以迭代的新組合、新能力、新技術(shù),為數(shù)實(shí)融合應(yīng)用注入更強(qiáng)勁的“數(shù)!彬(qū)動(dòng)力。
整個(gè)矩陣中,大數(shù)據(jù)基礎(chǔ)平臺(tái)是底座,包含全新升級(jí)的兩款產(chǎn)品:大數(shù)據(jù)計(jì)算引擎EasyMR 和湖倉(cāng)一體EasyLake。EasyMR 主要提供 Hadoop、Spark、Flink、HBase、Trino 等一鍵式組件的安裝、運(yùn)維、部署。EasyLake 則主要提供面向數(shù)據(jù)湖的統(tǒng)一元數(shù)據(jù)管理,及數(shù)據(jù)服務(wù)和分析。大數(shù)據(jù)基礎(chǔ)平臺(tái)旨在為各行業(yè)的數(shù)字化轉(zhuǎn)型提供隨時(shí)可用的強(qiáng)勁動(dòng)力和堅(jiān)實(shí)基礎(chǔ)。
中間層大數(shù)據(jù)開(kāi)發(fā)與治理,它融合了 DataOps 數(shù)據(jù)理念,包含離線開(kāi)發(fā)BatchWorks、實(shí)時(shí)開(kāi)發(fā)StreamWorks、數(shù)據(jù)服務(wù)DataAPI、數(shù)據(jù)資產(chǎn)DataAssets和指標(biāo)管理DataIndex 五大模塊。以自主可控、安全創(chuàng)新為技術(shù)內(nèi)核,將全域數(shù)據(jù)資產(chǎn)進(jìn)行匯聚、加⼯、治理、服務(wù)、分析,為客戶(hù)提供安全、穩(wěn)定、易⽤的⼤數(shù)據(jù)平臺(tái),加速釋放數(shù)據(jù)價(jià)值,賦能數(shù)智應(yīng)用。
最上層的數(shù)據(jù)智能分析與洞察層,提供客戶(hù)數(shù)據(jù)洞察UserInsight和數(shù)據(jù)可視化分析EasyBI兩大應(yīng)用功能。助力企業(yè)構(gòu)建以業(yè)務(wù)價(jià)值為導(dǎo)向的數(shù)據(jù)分析與應(yīng)用體系,驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)。
EasyMR:大數(shù)據(jù)計(jì)算引擎
EasyMR 內(nèi)包含 Hadoop、Hive、Spark、Trino、HBase、Kafka 等計(jì)算組件,完全兼容 Apache 開(kāi)源生態(tài),一鍵開(kāi)啟 LDAP+Kerberos+Ranger 認(rèn)證權(quán)限體系,支持庫(kù)/表/行/列級(jí)權(quán)限控制,提供企業(yè)級(jí)安全管控。
EasyMR 的集群管理包括以下五大功能:
l 主機(jī)管理:可以對(duì)接x86服務(wù)器、ARM 服務(wù)器、Kubernetes 集群等主機(jī)類(lèi)型,進(jìn)行包括批量接入、主機(jī)下架、主機(jī)監(jiān)控等在內(nèi)的主機(jī)操作
l 安裝部署:包含自動(dòng)部署、手動(dòng)部署、補(bǔ)丁包升/降級(jí)、組件回滾等豐富功能
l 集群運(yùn)維:包含組件啟停、健康檢查、服務(wù)日志查看等功能,以及根據(jù)客戶(hù)業(yè)務(wù)側(cè)的使用情況實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)縮容
l 監(jiān)控告警:隨著業(yè)務(wù)的運(yùn)行,發(fā)生主機(jī)運(yùn)行的異常情況,能夠?qū)崿F(xiàn)自動(dòng)告警
l 基礎(chǔ)管理:包括用戶(hù)管理、操作權(quán)限管理、審計(jì)日志等功能
EasyMR 的豐富功能能夠幫助企業(yè),更全面、更智能、更安全地運(yùn)用數(shù)據(jù),加速企業(yè)數(shù)字化轉(zhuǎn)型。
EasyMR 的核心特性
l 信創(chuàng)國(guó)產(chǎn)化
EasyMR 完成了與主流信創(chuàng)生態(tài)廠商的適配互認(rèn)工作,支持統(tǒng)信UOS、龍蜥、麒麟等國(guó)產(chǎn)操作系統(tǒng),鯤鵬920、飛騰等國(guó)產(chǎn)芯片,長(zhǎng)城擎天CF520、華為公有云等國(guó)產(chǎn)服務(wù)器的適配,以及大部分國(guó)產(chǎn)數(shù)據(jù)庫(kù)、國(guó)產(chǎn)中間件的適配。
l 開(kāi)源/自主可控
EasyMR 作為袋鼠云自研的大數(shù)據(jù)基礎(chǔ)平臺(tái),其大數(shù)據(jù)組件100%基于開(kāi)源 Hadoop,完全兼容 Apache 開(kāi)源生態(tài),與開(kāi)源社區(qū)同步迭代,時(shí)刻保持技術(shù)的領(lǐng)先性。并且 EasyMR 對(duì) Spark、Flink、Trino、Iceberg 等部分組件特性進(jìn)行優(yōu)化增強(qiáng),回饋社區(qū),以開(kāi)放心態(tài)共建 Hadoop 生態(tài)。
l 運(yùn)維托管服務(wù)
EasyMR 提供大數(shù)據(jù)集群監(jiān)控告警、安全保障、數(shù)據(jù)質(zhì)量保障以及平臺(tái)運(yùn)維服務(wù);提供定期巡檢、深度體檢、成本優(yōu)化以及高階調(diào)優(yōu)服務(wù);以及提供包括大數(shù)據(jù)集群遷移、集群容災(zāi)建設(shè)、架構(gòu)設(shè)計(jì)規(guī)劃等在內(nèi)的實(shí)施服務(wù),全鏈路一站式運(yùn)維托管服務(wù)。
l 安全
通過(guò) LDAP+Kerberos+Ranger 這套認(rèn)證權(quán)限體系,對(duì)庫(kù)/表/行/列級(jí)進(jìn)行權(quán)限控制,實(shí)現(xiàn)企業(yè)級(jí)安全管控。
EasyMR 國(guó)產(chǎn)化適配:
Hive 的子組件 Hive Metastore,在開(kāi)源的方案中通過(guò) redis 進(jìn)行緩存加速,而現(xiàn)在可以通過(guò)寶蘭德BCS 這樣的國(guó)產(chǎn)中間件對(duì) redis 進(jìn)行國(guó)產(chǎn)化替代。
Hive Metastore 本身的元數(shù)據(jù)信息在開(kāi)源方案中存儲(chǔ)在 MySQL 和 OracleSQL 中,現(xiàn)在也可以通過(guò)適配國(guó)產(chǎn)數(shù)據(jù)庫(kù),如 TDSQL、OceanBase,對(duì)開(kāi)源數(shù)據(jù)庫(kù)進(jìn)行替代;诖,EasyMR 實(shí)現(xiàn)真正的國(guó)產(chǎn)化,完全自主可控。
EasyMR 深知只有實(shí)現(xiàn)關(guān)鍵技術(shù)的自主化、國(guó)產(chǎn)化,才能真正實(shí)現(xiàn)技術(shù)創(chuàng)新,攻克“卡脖子”難題。
EasyMR 對(duì)大數(shù)據(jù)組件的功能增強(qiáng)
袋鼠云作為國(guó)內(nèi)領(lǐng)先的數(shù)字化基礎(chǔ)軟件與應(yīng)用服務(wù)商,十分重視強(qiáng)化產(chǎn)品的基礎(chǔ)能力和技術(shù)能力,在開(kāi)源技術(shù)的基礎(chǔ)上,EasyMR 對(duì) Spark、Flink、Trino、Iceberg 等多個(gè)大數(shù)據(jù)核心組件進(jìn)行了功能及性能增強(qiáng)。具體優(yōu)化見(jiàn)下圖:
僅在2022年袋鼠云技術(shù)同學(xué)就完成了上百次的 commit,為 Hadoop 生態(tài)的技術(shù)發(fā)展貢獻(xiàn)了屬于袋鼠云的力量。
贈(zèng)人玫瑰手有余香,回饋社區(qū)的同時(shí)袋鼠云實(shí)現(xiàn)了對(duì)整個(gè) Hadoop 體系核心代碼的完全自主掌握,對(duì)于 EasyMR 大數(shù)據(jù)平臺(tái)遷移、大數(shù)據(jù)組件維保等做到了100%自主可控。
EasyMR 自主研發(fā)能力:技術(shù)開(kāi)源
從2016年數(shù)棧V1.0發(fā)布開(kāi)始,到如今的數(shù)棧V6.0,數(shù)棧已經(jīng)歷經(jīng)了七年六個(gè)大版本的迭代實(shí)踐。隨著對(duì)技術(shù)能力的不懈探索,數(shù)棧內(nèi)部也沉淀了一些優(yōu)秀的大數(shù)據(jù)組件,如流批一體的數(shù)據(jù)同步集成組件ChunJun,DAG分布式任務(wù)調(diào)度組件Taier、大數(shù)據(jù)平臺(tái)運(yùn)維組件ChengYing等,這些組件數(shù)棧已經(jīng)全部貢獻(xiàn)給了Github,下面是袋鼠云開(kāi)源的地址,歡迎使用。
Github地址:https://github.com/DTStack
技術(shù)無(wú)界,創(chuàng)新不止。袋鼠云數(shù)棧技術(shù)團(tuán)隊(duì)連續(xù)兩年榮獲“年度優(yōu)秀開(kāi)源技術(shù)團(tuán)隊(duì)”的稱(chēng)號(hào),ChunJun 也順利晉級(jí)“2022 年中國(guó)開(kāi)源創(chuàng)新大賽”決賽,并榮獲“優(yōu)秀開(kāi)源項(xiàng)目/社區(qū)”獎(jiǎng)項(xiàng)。這些鼓勵(lì)都源于數(shù)棧技術(shù)團(tuán)隊(duì)出眾的產(chǎn)品技術(shù)能力和自主研發(fā)能力。
CDP/CDH 平滑遷移到 EasyMR 解決方案
基于國(guó)家對(duì)于國(guó)產(chǎn)信創(chuàng)的政策要求,以及 CDH 停止服務(wù)(EoS),用戶(hù)沒(méi)辦法再獲取售后支持的大背景,各行各業(yè)的大數(shù)據(jù)平臺(tái)底座需要進(jìn)行國(guó)產(chǎn)化替代的需求越來(lái)越強(qiáng)烈;诖,數(shù)棧支持 CDP/CDH 平滑遷移到 EasyMR 的解決方案,大大降低企業(yè)遷移成本低。
生產(chǎn)業(yè)務(wù)不能停,該方案支持雙軌運(yùn)行,即客戶(hù)的原 CDH 集群和信創(chuàng)的 EasyMR 集群可以同時(shí)運(yùn)行。整個(gè)遷移過(guò)程操作簡(jiǎn)單,配置靈活,通過(guò)4步即可完成所有的遷移工作。
第一步,進(jìn)行計(jì)算平臺(tái)和開(kāi)發(fā)套件的替換。
第二步,進(jìn)行數(shù)據(jù)遷移。包括歷史數(shù)據(jù)和元數(shù)據(jù)的遷移,在遷移過(guò)程中,EasyMR 支持?jǐn)?shù)據(jù)檢驗(yàn),保證在數(shù)據(jù)遷移過(guò)程中的數(shù)據(jù)一致。
第三步,執(zhí)行任務(wù)遷移。包括采集任務(wù)、數(shù)據(jù)加工任務(wù)、任務(wù)依賴(lài)關(guān)系以及分析引擎。
第四步,業(yè)務(wù)切割。包含集群的切換,及老服務(wù)器下線,新服務(wù)器上線等動(dòng)作切換,最終達(dá)到 CDP/CDH 平滑遷移到 EasyMR 的目的,并且實(shí)現(xiàn)對(duì)客戶(hù)側(cè)的業(yè)務(wù)無(wú)感知。
EasyMR 積累了大量的遷移成功案例,經(jīng)驗(yàn)豐富,可以保障整個(gè)遷移過(guò)程安全可靠。
Hadoop 平滑升級(jí)解決方案
大數(shù)據(jù)組件每年的版本更新速度比較快,不少企業(yè)還停留在 Hadoop2.0 的階段。許多客戶(hù)想升級(jí)到 Hadoop3.0 版本,體驗(yàn)新的特性和性能優(yōu)化,但是客戶(hù)的業(yè)務(wù)在版本更新中又不能停止,這時(shí)應(yīng)該怎么做?
EasyMR 可實(shí)現(xiàn)節(jié)點(diǎn)的動(dòng)態(tài)替換,將一個(gè)節(jié)點(diǎn)先升級(jí)到 Hadoop3.0 的節(jié)點(diǎn),在這個(gè)節(jié)點(diǎn)上印證沒(méi)有問(wèn)題之后,再進(jìn)行剩下節(jié)點(diǎn)的逐步替換,這樣就真正實(shí)現(xiàn)了 Hadoop 的無(wú)感知平滑升級(jí)。
EasyMR 的實(shí)踐應(yīng)用
在介紹完 EasyMR 的具體功能和特性之后,下文將為大家介紹2個(gè) EasyMR 的經(jīng)典實(shí)踐應(yīng)用落地,更深地感受 EasyMR 是如何幫助企業(yè)更高效、平滑、安全地實(shí)現(xiàn)實(shí)現(xiàn)國(guó)外進(jìn)口產(chǎn)品的國(guó)產(chǎn)化替代。
某全國(guó)性股份制商業(yè)銀行:CDH 遷移至 EasyMR
某全國(guó)性股份制商業(yè)銀行,為解決分行數(shù)據(jù)應(yīng)用建設(shè)效率差等問(wèn)題,數(shù)棧幫助該客戶(hù)實(shí)現(xiàn)了 CDH 平滑遷移至 EasyMR,并且為該客戶(hù)建立了“總行統(tǒng)一調(diào)度+分行數(shù)據(jù)協(xié)同共享”的數(shù)據(jù)應(yīng)用云平臺(tái)。
EasyMR 使用 Trino 替換 Impala,解決了客戶(hù) Impala 內(nèi)存過(guò)度占用導(dǎo)致節(jié)點(diǎn)宕機(jī)的問(wèn)題,提升查詢(xún)性能,實(shí)現(xiàn)了資源動(dòng)態(tài)隔離;并且采用「云平臺(tái)」的模式,總行+各個(gè)分行是平臺(tái)上的單獨(dú)租戶(hù),底層存儲(chǔ)、計(jì)算資源共享提升數(shù)據(jù)下發(fā)效率,數(shù)據(jù)權(quán)限隔離保證安全,不用再擔(dān)心出現(xiàn)分行數(shù)據(jù)誤刪除、丟失等安全問(wèn)題。EasyMR 兼容信創(chuàng)生態(tài)體系,平滑遷移至國(guó)產(chǎn)化環(huán)境,符合金融行業(yè)的信創(chuàng)國(guó)產(chǎn)化要求。
通過(guò) EasyMR 大數(shù)據(jù)基礎(chǔ)平臺(tái)的建設(shè),該全國(guó)性股份制商業(yè)銀行實(shí)現(xiàn)了成本管理和業(yè)務(wù)管控的雙效提升。
某支付行業(yè)云服務(wù)品牌:EasyMR + 數(shù)棧Saas化
金融行業(yè)正逐漸從數(shù)字化時(shí)代邁向智能化時(shí)代,該客戶(hù)的需求是將 EasyMR 和數(shù)棧進(jìn)行 Saas 化,依托數(shù)據(jù)中臺(tái)產(chǎn)品,賦能客戶(hù),加快走向智能化時(shí)代的步伐。
面對(duì)客戶(hù)需求,數(shù)棧 + EasyMR 與云平臺(tái)的網(wǎng)絡(luò)架構(gòu)、服務(wù)器、云平臺(tái)的統(tǒng)一權(quán)限管控等各項(xiàng)內(nèi)容實(shí)現(xiàn)全面兼容適配,保證在客戶(hù)開(kāi)通權(quán)限資源后,依然能夠保障 EasyMR 的穩(wěn)定運(yùn)行。并且數(shù)棧 + EasyMR 實(shí)現(xiàn)了「訂購(gòu)—自動(dòng)化部署—一鍵擴(kuò)縮容」等各類(lèi)操作。
作為大數(shù)據(jù)基礎(chǔ)軟件國(guó)產(chǎn)化的重要推動(dòng)者之一,數(shù)棧還擁有大量成熟大數(shù)據(jù)解決方案,可以更好地支持各行業(yè)智能化、數(shù)字化應(yīng)用建設(shè)。
首發(fā)數(shù)棧V6.0產(chǎn)品白皮書(shū)
此外,會(huì)上還發(fā)布了《數(shù)棧產(chǎn)品白皮書(shū)》(獲取地址:https://fs80.cn/zt4sp6),從數(shù)字技術(shù)、產(chǎn)品能力、應(yīng)用實(shí)踐、服務(wù)支持四個(gè)方面進(jìn)行深度研判,針對(duì)性克服數(shù)字化轉(zhuǎn)型短板,從數(shù)據(jù)治理、湖倉(cāng)一體、數(shù)據(jù)集成、DataOps 等八個(gè)方面進(jìn)行解決方案解讀,重點(diǎn)提升客戶(hù)數(shù)據(jù)管控能力。此外,本白皮書(shū)總結(jié)了有效的大數(shù)據(jù)基礎(chǔ)軟件建設(shè)經(jīng)驗(yàn),為各行業(yè)企業(yè)的數(shù)字化轉(zhuǎn)型提供參考和指導(dǎo)。
數(shù)棧始終堅(jiān)持自主可控,積極致力于幫助客戶(hù)打造國(guó)產(chǎn)創(chuàng)新的企業(yè)級(jí)大數(shù)據(jù)基礎(chǔ)軟件,幫助客戶(hù)夯實(shí)數(shù)據(jù)基座,建立從數(shù)據(jù)獲取生產(chǎn)到數(shù)據(jù)消費(fèi)利用的全生命周期管理體系,使數(shù)據(jù)“可見(jiàn)、可用、可管”,洞察數(shù)字化機(jī)遇,明確轉(zhuǎn)型方向,創(chuàng)造數(shù)據(jù)新價(jià)值。
今后,數(shù)棧產(chǎn)品也將更加貼合實(shí)際場(chǎng)景,用數(shù)智化方式解題,踐行“用數(shù)據(jù)產(chǎn)生價(jià)值”的使命。
(獲取地址:https://fs80.cn/zt4sp6)