聚云位智發(fā)揚(yáng)工匠精神 開創(chuàng)決策型數(shù)據(jù)庫(kù)時(shí)代
近日,北京聚云位智信息科技有限公司全球首發(fā)了新版本數(shù)據(jù)庫(kù)產(chǎn)品Linkoop DB,該產(chǎn)品面向大數(shù)據(jù)和人工智能,采用自主研發(fā)技術(shù)突破了一系列限制,在兼容傳統(tǒng)數(shù)據(jù)庫(kù)功能的前提下,為人工智能應(yīng)用提供了更簡(jiǎn)便的支撐和更強(qiáng)大的計(jì)算。
聚云將這款數(shù)據(jù)庫(kù)產(chǎn)品命名為“決策型數(shù)據(jù)庫(kù)系統(tǒng)”,該數(shù)據(jù)庫(kù)系統(tǒng)具備如下特點(diǎn):
1.自主研發(fā)。聚云未使用MYSQL或者PostgreSQL等現(xiàn)存數(shù)據(jù)庫(kù)內(nèi)核,完全參照基礎(chǔ)數(shù)據(jù)庫(kù)理論和大量行業(yè)積累而設(shè)計(jì)實(shí)現(xiàn),因而從根本上避免了“外國(guó)人設(shè)計(jì)、中國(guó)人實(shí)現(xiàn)”做法帶來的深層次存儲(chǔ)與計(jì)算能力的限制。
2. Linkoop DB采用MPP理念設(shè)計(jì),可以做到無上限線性擴(kuò)展。Linkoop DB是分析型數(shù)據(jù)庫(kù)系統(tǒng)的演進(jìn)結(jié)果 ,屬于關(guān)系型數(shù)據(jù)庫(kù)。
3. Linkoop DB充分考慮了復(fù)雜的、迭代類AI計(jì)算與流計(jì)算的支持。并由此目標(biāo)出發(fā),重新設(shè)計(jì)實(shí)現(xiàn)了數(shù)據(jù)庫(kù)內(nèi)核中的存儲(chǔ)引擎、計(jì)算引擎和優(yōu)化策略。
數(shù)據(jù)庫(kù)技術(shù)的發(fā)展歷史大體分成兩條主線,事務(wù)型數(shù)據(jù)庫(kù)系統(tǒng)(Transactional Database)和分析型數(shù)據(jù)庫(kù)系統(tǒng)(Analytical Database)。 事務(wù)型數(shù)據(jù)庫(kù)系統(tǒng)是OLTP(on-line transaction processing)業(yè)務(wù)系統(tǒng)的核心支撐軟件,主要針對(duì)日常交易的增刪改查。事務(wù)型數(shù)據(jù)庫(kù)系統(tǒng)的主要供應(yīng)商是Oracle和IBM。分析型數(shù)據(jù)庫(kù)系統(tǒng)是OLAP(On-Line Analytical Processing)業(yè)務(wù)系統(tǒng)的核心支撐軟件,主要針對(duì)數(shù)據(jù)統(tǒng)計(jì)、分析和決策支持,是企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW,Enterprise Data Warehouse)的核心構(gòu)成軟件。分析型數(shù)據(jù)庫(kù)系統(tǒng)的主要供應(yīng)商是Teradata,Oracle和IBM,以及其他一些規(guī)模中小的數(shù)據(jù)庫(kù)系統(tǒng)。
然而,隨著業(yè)務(wù)需求在擴(kuò)展性、實(shí)時(shí)性和決策性等方面的快速發(fā)展,以傳統(tǒng)分析型數(shù)據(jù)庫(kù)為核心的決策支持系統(tǒng)已經(jīng)不能滿足當(dāng)前和未來的發(fā)展需要。因此,一個(gè)滿足當(dāng)下和未來數(shù)據(jù)處理需求的新型數(shù)據(jù)庫(kù)系統(tǒng),就成為了解決問題的關(guān)鍵。即,如何緊緊圍繞海量數(shù)據(jù)處理、性能優(yōu)化、實(shí)時(shí)處理和人工智能場(chǎng)景等方面的大數(shù)據(jù)核心需求的解決,是評(píng)判一家大數(shù)據(jù)公司是否在正確方向發(fā)展的合理準(zhǔn)則。
聚云在今年4月份獲得Pre-A融資后,在既有技術(shù)基礎(chǔ)上補(bǔ)充了一大批核心技術(shù)人員,并繼續(xù)突破傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù),引領(lǐng)處理技術(shù)的迭代演進(jìn)。
海量數(shù)據(jù)處理不僅需要解決數(shù)據(jù)存儲(chǔ)的問題,更重要的是解決數(shù)據(jù)訪問的問題,也就是說讓計(jì)算模塊能夠用最快的方式拿到數(shù)據(jù)輸入。因此數(shù)據(jù)的更新、插入、過濾和索引至少是和存儲(chǔ)擴(kuò)展性一樣重要的能力?;陂_源Hadoop體系演進(jìn)而來的SQL-on-Hadoop系統(tǒng)很多碰到了這方面的技術(shù)瓶頸。解決的辦法是需要全新的、可擴(kuò)展的存儲(chǔ)引擎,這是考驗(yàn)相關(guān)公司技術(shù)能力的重要指標(biāo)。
性能優(yōu)化是試圖找到最理想任務(wù)執(zhí)行策略的技術(shù),不同的執(zhí)行策略消耗的資源可能有巨大差別。優(yōu)化器的設(shè)計(jì)與實(shí)現(xiàn)一直是數(shù)據(jù)庫(kù)領(lǐng)域的核心技術(shù),在當(dāng)前大數(shù)據(jù)時(shí)代也是如此。由大數(shù)據(jù)和人工智能帶來的巨大需求發(fā)展同時(shí)也對(duì)優(yōu)化器的發(fā)展提出了更高要求。解決的思路是以準(zhǔn)確的方式刻畫多種不同任務(wù)類型(批處理、流處理和機(jī)器學(xué)習(xí)等)的執(zhí)行代價(jià),從而選擇代價(jià)最優(yōu)的方案執(zhí)行任務(wù)。
實(shí)時(shí)數(shù)據(jù)處理是需求發(fā)展的必然要求,它主要解決兩個(gè)場(chǎng)景:一是避免數(shù)據(jù)采集端形成數(shù)據(jù)積壓;二是解決實(shí)時(shí)得到計(jì)算響應(yīng)的業(yè)務(wù)需求?,F(xiàn)實(shí)應(yīng)用場(chǎng)景中實(shí)時(shí)和批量經(jīng)常是相互關(guān)聯(lián)的,因此需要統(tǒng)一的操作方式來避免以多平臺(tái)的方式管理數(shù)據(jù)和計(jì)算邏輯。
人工智能是場(chǎng)景化的應(yīng)用,當(dāng)前主要難度在于問題的理解、尋找問題的合適刻畫方式以及試探性的調(diào)整算法以及參數(shù)的過程耗時(shí)耗力。多數(shù)人工智能公司依靠領(lǐng)域?qū)<液蛿?shù)據(jù)專家配合的方式來解決問題,然而,領(lǐng)域?qū)<液蛿?shù)據(jù)專家都是稀缺資源,也難于培養(yǎng),從而導(dǎo)致人工智能成為了貴族應(yīng)用,不好落地。解決的辦法是自動(dòng)化,包括特征選擇、模型選擇、模型訓(xùn)練、模型評(píng)估以及模型發(fā)布的局部自動(dòng)化和整體自動(dòng)化。如此才能降低AI的落地門檻,成為大面積可落地的生產(chǎn)力。
聚云決策型數(shù)據(jù)庫(kù)Linkoop DB采用自研存儲(chǔ)系統(tǒng)完成海量數(shù)據(jù)的線性擴(kuò)展存儲(chǔ),并同時(shí)保持高性能的數(shù)據(jù)存取。在性能優(yōu)化方面,聚云擁有獨(dú)創(chuàng)的“增量式查詢優(yōu)化技術(shù)”,保障海量數(shù)據(jù)計(jì)算的最佳性能。在算法模型方面,聚云自研了多因素關(guān)聯(lián)、多目標(biāo)優(yōu)化和多系統(tǒng)協(xié)同等場(chǎng)景化的人工智能模型,采用突破性技術(shù)使特征選擇和模型評(píng)估自動(dòng)化,并采用SQL統(tǒng)一驅(qū)動(dòng)的方式,讓業(yè)務(wù)決策與數(shù)據(jù)訪問無縫結(jié)合。聚云還深度改造了開源實(shí)時(shí)計(jì)算框架使之與SQL、規(guī)則、人工智能模型高度融合,從而在擴(kuò)大解決問題領(lǐng)域的同時(shí)顯著提高了系統(tǒng)計(jì)算能力。截至目前,聚云Linkoop DB已經(jīng)在金融、電信、制造、教育等領(lǐng)域得到了廣泛應(yīng)用與驗(yàn)證。
關(guān)鍵詞: 人工智能 數(shù)據(jù)庫(kù) 時(shí)代