伴隨著5G、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,各行各業(yè)的業(yè)務(wù)場(chǎng)景日益復(fù)雜,數(shù)據(jù)呈現(xiàn)出大規(guī)模、多樣性的特點(diǎn),特別是非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長(zhǎng)態(tài)勢(shì)。企業(yè)對(duì)數(shù)據(jù)庫(kù)技術(shù)的需求不再局限于結(jié)構(gòu)化的OLTP數(shù)據(jù)交易,而是需要進(jìn)一步擴(kuò)展到對(duì)多樣化數(shù)據(jù)進(jìn)行實(shí)時(shí)處理的場(chǎng)景。傳統(tǒng)的數(shù)據(jù)湖在事務(wù)一致性及實(shí)時(shí)處理方面有所欠缺,而數(shù)據(jù)倉(cāng)庫(kù)也無(wú)法應(yīng)對(duì)高并發(fā)、多數(shù)據(jù)類型的處理,因此,支持事務(wù)一致性、提供高并發(fā)實(shí)時(shí)處理及分析能力的湖倉(cāng)一體架構(gòu)應(yīng)運(yùn)而生。湖倉(cāng)一體架構(gòu)在成本、靈活性、統(tǒng)一數(shù)據(jù)存儲(chǔ)、多元數(shù)據(jù)分析等多方面具備優(yōu)勢(shì),正逐步轉(zhuǎn)化為下一代數(shù)據(jù)管理系統(tǒng)的核心競(jìng)爭(zhēng)力。
湖倉(cāng)一體是一種新型的開放式架構(gòu),打通了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,將數(shù)據(jù)倉(cāng)庫(kù)的高性能及管理能力與數(shù)據(jù)湖的靈活性融合了起來(lái),底層支持多種數(shù)據(jù)類型并存,能實(shí)現(xiàn)數(shù)據(jù)間的相互共享,上層可以通過(guò)統(tǒng)一封裝的接口進(jìn)行訪問(wèn),可同時(shí)支持實(shí)時(shí)查詢和分析,為企業(yè)進(jìn)行數(shù)據(jù)治理帶來(lái)了更多的便利性。湖倉(cāng)一體可在數(shù)據(jù)入湖后原地進(jìn)行數(shù)據(jù)處理與分析,能有效避免數(shù)據(jù)冗余及流動(dòng)導(dǎo)致的算力、網(wǎng)絡(luò)及成本開銷,可以作為超大型ODS存儲(chǔ)貼源數(shù)據(jù),實(shí)現(xiàn)全量數(shù)據(jù)的實(shí)時(shí)處理。
湖倉(cāng)一體架構(gòu)在數(shù)據(jù)管理中主要具有以下幾大關(guān)鍵特征:
一是支持分析多種類型數(shù)據(jù)。湖倉(cāng)一體架構(gòu)可為多應(yīng)用程序提供數(shù)據(jù)的入庫(kù)、轉(zhuǎn)換、分析和訪問(wèn)。數(shù)據(jù)類型包括結(jié)構(gòu)化與非結(jié)構(gòu)化類型,如文本、圖像、視頻、音頻等,以及半結(jié)構(gòu)化數(shù)據(jù),如JSON等。
二是數(shù)據(jù)可治理,避免產(chǎn)生數(shù)據(jù)沼澤。湖倉(cāng)一體架構(gòu)可以支持各類數(shù)據(jù)模型的實(shí)現(xiàn)和轉(zhuǎn)變,支持DW模式架構(gòu),例如星型模型、雪花模型等,可保證數(shù)據(jù)的完整性,同時(shí)具有健全的治理和審計(jì)機(jī)制,能夠避免數(shù)據(jù)沼澤現(xiàn)象的出現(xiàn)。
三是事務(wù)支持。在企業(yè)中,數(shù)據(jù)庫(kù)往往要為業(yè)務(wù)系統(tǒng)提供并發(fā)的數(shù)據(jù)讀取和寫入。湖倉(cāng)一體架構(gòu)對(duì)事務(wù)ACID的支持,可確保并發(fā)訪問(wèn),尤其是SQL訪問(wèn)模式下的數(shù)據(jù)一致性、正確性。
四是BI支持。湖倉(cāng)一體支持直接在源數(shù)據(jù)上使用BI工具,這樣可以提高分析效率,降低數(shù)據(jù)延時(shí)。另外,相比于在數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)中分別操作兩個(gè)副本的方式,湖倉(cāng)一體更具成本優(yōu)勢(shì)。
五是存算分離。湖倉(cāng)一體采用存算分離架構(gòu),可使系統(tǒng)能夠擴(kuò)展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量,能滿足新時(shí)代對(duì)于分布式數(shù)據(jù)架構(gòu)的要求。
六是開放性。湖倉(cāng)一體采用開放、標(biāo)準(zhǔn)化的存儲(chǔ)格式(例如行存、列存、塊存),能提供豐富的API支持。因此,各種工具和引擎(包括機(jī)器學(xué)習(xí)和Python/R庫(kù))可以高效地對(duì)數(shù)據(jù)進(jìn)行直接訪問(wèn)。
從落地性來(lái)看,湖倉(cāng)一體技術(shù)架構(gòu)落地目前有三種方式:
第一個(gè)融合方向是基于Hadoop體系的數(shù)據(jù)湖向數(shù)據(jù)倉(cāng)庫(kù)能力擴(kuò)展,湖中建倉(cāng),從數(shù)據(jù)湖進(jìn)化到湖倉(cāng)一體。湖倉(cāng)一體結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn),直接在用于數(shù)據(jù)湖的低成本存儲(chǔ)上實(shí)現(xiàn)與數(shù)據(jù)倉(cāng)庫(kù)中類似的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)管理功能。目前主要有Netflix等開源企業(yè)在探索此技術(shù)路線。
第二個(gè)是基于自身云平臺(tái)或第三方對(duì)象存儲(chǔ)(如OSS、S3、Ceph等),基于Hadoop或自研技術(shù)進(jìn)行湖倉(cāng)一體能力的搭建。探索此技術(shù)路線的通常是各大云廠商,如AWS、阿里云、華為云等。
第三個(gè)融合方向是以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ),自研分布式平臺(tái),從調(diào)度、計(jì)算到存儲(chǔ)不依賴第三方平臺(tái),形成可以靈活在公有云、私有云、裸金屬等場(chǎng)景獨(dú)立部署使用的能力。技術(shù)方向上更注重于實(shí)時(shí)高并發(fā)場(chǎng)景及非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)治理,并逐步向更廣泛的分析場(chǎng)景發(fā)展,主要廠商以Snowflakes、Databricks、巨杉數(shù)據(jù)庫(kù)等為代表。
三個(gè)技術(shù)方向均是廠商依托自身技術(shù)優(yōu)勢(shì)進(jìn)行的架構(gòu)融合,均有自身優(yōu)劣勢(shì)及技術(shù)特性,能夠滿足不同場(chǎng)景下的客戶需求。
同時(shí),本報(bào)告指出了湖倉(cāng)一體架構(gòu)未來(lái)的發(fā)展趨勢(shì):一是隨著企業(yè)對(duì)海量大數(shù)據(jù)的實(shí)時(shí)處理需求越來(lái)越迫切,湖倉(cāng)一體架構(gòu)將成為越來(lái)越多用戶的主流選擇,助力各行各業(yè)數(shù)字化轉(zhuǎn)型;二是以人為軸的數(shù)據(jù)開發(fā)和優(yōu)化,將越來(lái)越難以滿足企業(yè)實(shí)際需求,屆時(shí)人工智能技術(shù)將介入數(shù)據(jù)庫(kù)的自動(dòng)調(diào)優(yōu)、自動(dòng)整理過(guò)程,助力提升湖倉(cāng)一體架構(gòu)的智能化。
在報(bào)告的最后,賽迪顧問(wèn)對(duì)用戶和廠商提出了一些發(fā)展建議。對(duì)用戶而言,要重視專業(yè)化服務(wù)能力和成功案例的可移植性,選擇適合自身情況的數(shù)據(jù)管理產(chǎn)品。對(duì)廠商而言,要重視研發(fā)投入,加快產(chǎn)品與新興技術(shù)融合,同時(shí)不斷提高專業(yè)化服務(wù)水平,重視實(shí)施與交付能力的提升。
關(guān)于巨杉數(shù)據(jù)庫(kù)
在此次報(bào)告中,巨杉數(shù)據(jù)庫(kù)作為湖倉(cāng)一體典型廠商入選?;诤}(cāng)一體的架構(gòu)特性,巨杉數(shù)據(jù)庫(kù)可構(gòu)建數(shù)據(jù)基礎(chǔ)設(shè)施平臺(tái),整合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲(chǔ)與管理,為面向全量數(shù)據(jù)業(yè)務(wù)提供:SQL、NoSQL、Object等多種接口。此外,通過(guò)特有的跨引擎事務(wù)能力,可以有效簡(jiǎn)化多團(tuán)隊(duì)開發(fā)流程中對(duì)不同引擎、不同結(jié)構(gòu)的數(shù)據(jù)管理,打通ACID事務(wù)支持,提升業(yè)務(wù)開發(fā)、數(shù)據(jù)處理、運(yùn)維管理能力,釋放全量數(shù)據(jù)價(jià)值,提升企業(yè)數(shù)據(jù)處理的“人效”及“能效”。目前,巨杉數(shù)據(jù)庫(kù)已經(jīng)在超過(guò)100家金融銀行客戶規(guī)?;暇€使用,全面覆蓋國(guó)有銀行、股份制銀行、省級(jí)農(nóng)信、城商行、保險(xiǎn)、證券等金融客戶。
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: