近日,賽迪顧問正式發(fā)布了國(guó)內(nèi)首份《湖倉(cāng)一體技術(shù)研究報(bào)告》。對(duì)此,巨杉數(shù)據(jù)庫(kù)特邀賽迪顧問軟件與信息服務(wù)業(yè)研究專家,對(duì)《湖倉(cāng)一體技術(shù)研究報(bào)告》進(jìn)行了深入解讀。
伴隨數(shù)字化在各行各業(yè)的深化發(fā)展,企業(yè)不但需要面向業(yè)務(wù)的「交易核心」,同時(shí)更需要構(gòu)建面向企業(yè)全量數(shù)據(jù)價(jià)值的「數(shù)據(jù)核心」。不同于傳統(tǒng)「交易核心」往往僅針對(duì)特定業(yè)務(wù)系統(tǒng)解決其交易需求不同的是,「數(shù)據(jù)核心」需要匯聚從多個(gè)「交易核心」產(chǎn)生的實(shí)時(shí)交易流水?dāng)?shù)據(jù),為全企業(yè)跨業(yè)務(wù)的多個(gè)系統(tǒng)提供高并發(fā)的實(shí)時(shí)對(duì)客全量數(shù)據(jù)查詢及數(shù)據(jù)探索分析能力。湖倉(cāng)一體技術(shù)借助海量、實(shí)時(shí)、多模的數(shù)據(jù)處理能力,實(shí)現(xiàn)全量數(shù)據(jù)價(jià)值的持續(xù)釋放,正成為企業(yè)數(shù)字化轉(zhuǎn)型過程中的備受關(guān)注焦點(diǎn)。
本次解讀分享,結(jié)合湖倉(cāng)一體技術(shù)的發(fā)展歷程,對(duì)現(xiàn)階段業(yè)界重點(diǎn)產(chǎn)品,典型案例,未來趨勢(shì)等多方面內(nèi)容進(jìn)行了剖析,綜合評(píng)判了湖倉(cāng)一體技術(shù)的發(fā)展階段及未來應(yīng)用場(chǎng)景。
· 湖倉(cāng)一體技術(shù)的發(fā)展現(xiàn)狀
現(xiàn)階段,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的融合發(fā)展主要有三個(gè)技術(shù)路徑,根據(jù)不同路徑的技術(shù)特性,可以滿足不同場(chǎng)景下的客戶需求。
第一個(gè)是基于Hadoop體系的數(shù)據(jù)湖向數(shù)據(jù)倉(cāng)庫(kù)能力擴(kuò)展,在數(shù)據(jù)湖中建數(shù)據(jù)倉(cāng)庫(kù),通過引入數(shù)據(jù)倉(cāng)庫(kù)的分析功能,從數(shù)據(jù)湖直接進(jìn)化到湖倉(cāng)一體。
第二個(gè)是基于自身云平臺(tái)進(jìn)行架構(gòu)構(gòu)建,主要是公有云廠商基于自身云平臺(tái)或相關(guān)產(chǎn)品,通過自研技術(shù)打通數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù),實(shí)現(xiàn)湖倉(cāng)一體功能。
第三個(gè)是以獨(dú)立數(shù)據(jù)庫(kù)廠商為代表的梯隊(duì),其以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ),自研分布式平臺(tái),從調(diào)度、計(jì)算到存儲(chǔ)不依賴第三方平臺(tái),形成可以靈活在公有云、私有云、裸金屬等場(chǎng)景獨(dú)立部署的湖倉(cāng)一體平臺(tái)。這類的代表廠商如海外的Snowflake,Databricks及國(guó)內(nèi)的巨杉數(shù)據(jù)庫(kù)等。
報(bào)告選取了業(yè)界比較主流的6個(gè)湖倉(cāng)一體產(chǎn)品進(jìn)行對(duì)比分析,包括海外廠商Snowflake、Databricks及亞馬遜AWS智能湖倉(cāng),國(guó)內(nèi)廠商巨杉數(shù)據(jù)庫(kù)SequoiaDB、阿里云MaxCompute湖倉(cāng)一體方案、華為云FusionInsight。
從設(shè)計(jì)初衷來看,各家產(chǎn)品雖然技術(shù)路線不同,或自研,或基于開源,或基于自身云平臺(tái)的產(chǎn)品組合,但最終目的均一致是為了降低數(shù)據(jù)在不同平臺(tái)間的流動(dòng),這樣做的好處一方面是技術(shù)上可以降低客戶的管理成本,另一方面在商業(yè)上也提升了客戶粘性和操作體驗(yàn)。比如像亞馬遜AWS、阿里云、華為云,會(huì)通過各類云上的工具打通不同產(chǎn)品或組件間的數(shù)據(jù)流通,而Snowflake、Databricks、巨杉數(shù)據(jù)庫(kù)則會(huì)盡可能讓同一平臺(tái)上的數(shù)據(jù)具備更豐富的應(yīng)用場(chǎng)景。
從特性上來看,各個(gè)廠商均強(qiáng)調(diào)了ACID事物一致性,因?yàn)樵诤}(cāng)一體中,數(shù)據(jù)不再如同傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中的離線分析數(shù)據(jù),客戶的業(yè)務(wù)數(shù)據(jù)將更實(shí)時(shí)的以數(shù)據(jù)流的方式寫入。雖然湖倉(cāng)一體不需要如同事務(wù)型數(shù)據(jù)庫(kù)一樣,擁有低延遲的在線交易能力,但是在數(shù)字化轉(zhuǎn)型需求下,系統(tǒng)同樣需要提供實(shí)時(shí)的數(shù)據(jù)查詢分析能力,及保證在某一時(shí)間點(diǎn)上數(shù)據(jù)的準(zhǔn)確性。
整體分析后不難看出,Snowflake從數(shù)據(jù)倉(cāng)庫(kù)逐步提供多元化的數(shù)據(jù)處理,其最新版本也進(jìn)一步強(qiáng)化了數(shù)據(jù)實(shí)時(shí)服務(wù)能力。Databricks的優(yōu)勢(shì)在于對(duì)非結(jié)構(gòu)化數(shù)據(jù)處理的AI機(jī)器學(xué)習(xí)及科學(xué)計(jì)算上,并持續(xù)擴(kuò)展其數(shù)據(jù)倉(cāng)庫(kù)的分析能力。巨杉數(shù)據(jù)庫(kù)以統(tǒng)一平臺(tái)下跨結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的多模數(shù)據(jù)處理能力為基礎(chǔ),重點(diǎn)提供高并發(fā)的實(shí)時(shí)對(duì)客查詢,并持續(xù)擴(kuò)展實(shí)時(shí)湖倉(cāng)的分析能力。亞馬遜AWS、阿里云、華為云則更注重于其基于自身云生態(tài)的技術(shù)能力整合,簡(jiǎn)化了云平臺(tái)客戶在數(shù)據(jù)處理上的復(fù)雜度。
在報(bào)告中,也對(duì)湖倉(cāng)一體的典型應(yīng)用案例進(jìn)行了分析,具體內(nèi)容可下載報(bào)告后進(jìn)行閱讀。
· 湖倉(cāng)一體技術(shù)的未來趨勢(shì)
分析來看,“湖倉(cāng)一體”架構(gòu)在數(shù)據(jù)管理中呈現(xiàn)出六大技術(shù)特性。
一是支持分析多種數(shù)據(jù)類型,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
二是數(shù)據(jù)可治理,在保證數(shù)據(jù)完整性的同時(shí),具有健全的治理和審計(jì)機(jī)制,能夠避免數(shù)據(jù)沼澤現(xiàn)象。
三是事務(wù)支持,企業(yè)數(shù)據(jù)往往要為業(yè)務(wù)系統(tǒng)提供并發(fā)的讀取和寫入,對(duì)事物ACID的支持,可確保數(shù)據(jù)并發(fā)訪問的一致性、正確性。
四是BI支持,能夠支持直接在源數(shù)據(jù)上使用BI工具,加快分析效率,降低數(shù)據(jù)延遲。
五是存算分離,使系統(tǒng)能夠擴(kuò)展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量。
六是開放型,采用開放、標(biāo)準(zhǔn)化的存儲(chǔ)格式,并提供豐富的API支持。
與此同時(shí),隨著湖倉(cāng)一體技術(shù)的不斷成熟,未來將在四大應(yīng)用場(chǎng)景中發(fā)揮作用。
場(chǎng)景一:服務(wù)于數(shù)據(jù)中臺(tái)的實(shí)時(shí)數(shù)倉(cāng)。由于數(shù)據(jù)中臺(tái)要求其數(shù)據(jù)庫(kù)在分析處理過程中,需強(qiáng)調(diào)事物一致性,并保持低延遲與提升實(shí)時(shí)處理能力,這些都是湖倉(cāng)一體的典型技術(shù)特性。
場(chǎng)景二:支撐微服務(wù)的數(shù)據(jù)融合底座。可有效解決擴(kuò)展困難以及維護(hù)困難的問題。
場(chǎng)景三:全量數(shù)據(jù)實(shí)時(shí)訪問平臺(tái)。在數(shù)字化轉(zhuǎn)型過程中,對(duì)客實(shí)時(shí)查詢,歷史數(shù)據(jù)服務(wù)平臺(tái),或IoT物聯(lián)網(wǎng)系統(tǒng)中,會(huì)產(chǎn)生實(shí)時(shí)處理海量數(shù)據(jù)的需求,湖倉(cāng)一體的彈性擴(kuò)展能力能夠很好滿足這一需求。
場(chǎng)景四:進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)處理,數(shù)字化轉(zhuǎn)型中通過AI機(jī)器學(xué)習(xí)及比對(duì)分析,非結(jié)構(gòu)化數(shù)據(jù)將包含更多元化的業(yè)務(wù)屬性,為各類業(yè)務(wù)系統(tǒng)提供信息輸入。湖倉(cāng)一體能夠有效提升非結(jié)構(gòu)化數(shù)據(jù)的處理能力。
更多內(nèi)容,歡迎搜索《湖倉(cāng)一體技術(shù)研究報(bào)告》,下載完整版報(bào)告。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: