GBase新聞
全球分布式云大會 GBase GCDW云上邏輯數(shù)據(jù)倉庫助力行業(yè)迎接數(shù)字化轉(zhuǎn)型新挑戰(zhàn)
近日,以“引領分布式云變革 助力灣區(qū)數(shù)字經(jīng)濟”為主題的全球分布式云大會在深圳隆重召開,本屆大會由全球分布式云聯(lián)盟、深圳科技交流服務中心、深圳市通信學會、眾視Tech聯(lián)合主辦。組委會攜手南大通用、阿里云、騰訊云、Google Cloud、華為云、螞蟻集團、浪潮云、金山云等海內(nèi)外頂尖云計算團隊和分布式云先鋒企業(yè),為粵港澳大灣區(qū)數(shù)字經(jīng)濟發(fā)展注入分布式云動力,更將中國分布式云計算發(fā)展推上全新高度!
在分布式數(shù)據(jù)論壇上,天津南大通用數(shù)據(jù)技術股份有限公司數(shù)據(jù)智能產(chǎn)品經(jīng)營部總經(jīng)理張紹勇發(fā)表了題為《GBase GCDW云上邏輯數(shù)據(jù)倉庫助力行業(yè)迎接數(shù)字化轉(zhuǎn)型新挑戰(zhàn)》的精彩演講。
傳統(tǒng)企業(yè)級數(shù)據(jù)庫面臨的六大挑戰(zhàn)
一 傳統(tǒng)數(shù)據(jù)庫有單機架構(gòu)、分布式架構(gòu)和存算一體架構(gòu),這三種架構(gòu)都面臨著資源彈性的挑戰(zhàn),硬件資源在業(yè)務高峰時成為瓶頸,但在業(yè)務低谷時候又出現(xiàn)浪費。
二 隨著數(shù)據(jù)量越來越大,傳統(tǒng)的三種架構(gòu)對數(shù)據(jù)的承載的能力不足。
三 數(shù)據(jù)的實時處理的能力要求越來越高。
四 數(shù)據(jù)類型的復雜性越來越高,傳統(tǒng)數(shù)倉主要處理結(jié)構(gòu)化數(shù)據(jù),但現(xiàn)在結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的場景越來越多。
五 用戶挖掘數(shù)據(jù)價值需求越來越高,傳統(tǒng)的數(shù)據(jù)庫在支撐一些深入挖掘的算法方面乏力。
六 安全需求越來越高,尤其隨著國家關鍵信息基礎設施安全保護條例等發(fā)布,傳統(tǒng)數(shù)據(jù)庫在多方面的安全都亟待強化。
為了應對上述挑戰(zhàn),南大通用把新一代的解決方案稱為“下一代的企業(yè)級數(shù)據(jù)倉庫”。下一代企業(yè)級數(shù)據(jù)倉庫應具備的演進方向有兩個,一是云化、分布式、融合、智能、實時、安全,這六點對應上述六個痛點,云化是解決資源彈性問題,分布式解決數(shù)據(jù)容量問題,融合是解決多模問題,智能解決數(shù)據(jù)價值挖掘問題,實時解決以T+1方式演進到準時方式,在加密權(quán)限等多方面解決安全問題。
六個方向相互依賴,基礎架構(gòu)在傳統(tǒng)MPP數(shù)據(jù)庫分布式融合智能實時點作為基石,在這個基礎之上,提供數(shù)據(jù)價值挖掘能力;在云計算提供資源池化的基礎之上,把分布式、融合、智能、安全、實時的基礎產(chǎn)品架構(gòu)在云上。核心是大數(shù)據(jù)處理能力,解決最基礎的問題,在這一基礎上,張紹勇引入了演講的重心——如何上云的問題。
下一代企業(yè)級數(shù)據(jù)倉庫的重要能力
張紹勇從演進的6個方向總結(jié)數(shù)據(jù)倉庫的四大重要能力:
第一是數(shù)據(jù)實時化。有三個方向,第一是數(shù)據(jù)源,傳統(tǒng)的關系數(shù)據(jù)庫的數(shù)據(jù)如何同步到下一代數(shù)倉里;第二是數(shù)據(jù)流式的處理能力;第三是數(shù)據(jù)遷入數(shù)倉湖以后,如何處理得更快。
第二是多模能力。通過數(shù)據(jù)虛擬化的能力來解決,數(shù)據(jù)在底層存儲在多個引擎中,但用戶不用關注數(shù)據(jù)位置,需要提供統(tǒng)一的數(shù)據(jù)訪問能力。
第三是數(shù)據(jù)平民化。數(shù)據(jù)要更加可視化,并且能夠以自行自動配置的方式來使用。
第四是數(shù)據(jù)協(xié)作化。系統(tǒng)面臨多種用戶,在一個系統(tǒng)之間進行多租戶管理和分工協(xié)作,非常重要。
張紹勇表示,下一代企業(yè)級數(shù)據(jù)倉庫的重要能力就是融合統(tǒng)一。在融合統(tǒng)一的基礎之上才是數(shù)據(jù)湖、數(shù)據(jù)倉庫,下一代企業(yè)級數(shù)據(jù)倉庫完全支撐了數(shù)據(jù)湖、數(shù)據(jù)倉的能力。數(shù)據(jù)湖的存儲容量更大、成本更低,數(shù)據(jù)以原始格式保存,數(shù)據(jù)的使用更加靈活,面向用戶多樣。數(shù)據(jù)倉庫的模式是對數(shù)據(jù)提前加工處理,是模式化的。
云上邏輯數(shù)據(jù)倉庫
什么是邏輯數(shù)據(jù)倉庫?
Gartner的定義是不再局限于結(jié)構(gòu)化數(shù)據(jù),包括非結(jié)構(gòu)化的數(shù)據(jù),邏輯上是個大的數(shù)據(jù)倉庫,底層包括各種數(shù)據(jù)源進行關聯(lián)處理。
從Gartner的定義中可以總結(jié)出以下幾點:
第一,處理的不僅僅局限于結(jié)構(gòu)化數(shù)據(jù);
第二,邏輯上是個大的數(shù)據(jù)倉庫;
第三,雖然邏輯上一體,用戶或多個引擎之間的數(shù)據(jù)要發(fā)生關系,多個數(shù)據(jù)之間要進行關聯(lián)和交換。
邏輯數(shù)據(jù)倉庫所達到的目標
隨處運行 既可以部署在云上,也可以部署在物理機、虛擬機,無論部署在什么樣的環(huán)境下都可運行。
隨處保存 用戶不用關心數(shù)據(jù)在哪,結(jié)構(gòu)化數(shù)據(jù)保存在傳統(tǒng)數(shù)據(jù)庫和MPP里,非結(jié)構(gòu)化可以保存在Hadoop引擎里,這是數(shù)據(jù)虛擬化的能力。
隨處使用 數(shù)據(jù)聯(lián)邦的能力,使用時既可以處理結(jié)構(gòu)化數(shù)據(jù)的算法,也可以處理非結(jié)構(gòu)化數(shù)據(jù)的算法,混合場景也能夠支持。
邏輯數(shù)據(jù)倉庫的設計理念
傳統(tǒng)的數(shù)據(jù)倉庫都有數(shù)據(jù)采集的過程,把數(shù)據(jù)源的數(shù)據(jù)通過ETL采集到鏈條里;邏輯數(shù)據(jù)倉庫叫做重關聯(lián),不需要采集,只需要數(shù)據(jù)(無論在本地、云端或其他任何地方),使用時只需要做關聯(lián)處理。張紹勇補充說,這一場景并不絕對,有些數(shù)據(jù)需要加工處理的,要先經(jīng)過集中化,實際上還是要經(jīng)過ETR,但有些數(shù)據(jù)出于質(zhì)量或自研的要求,可能在其他數(shù)據(jù)源里,直接使用就可以,不需要采集,兩種場景都有它實際的業(yè)務使用之處。
基于這樣的設計理念,Gartner在2016年提出來的新一代企業(yè)級數(shù)據(jù)平臺概念:它是綜合分析場景,以及我們對于批量跟實時的工作模式。為了解決這樣的場景,提供數(shù)據(jù)虛擬化以及數(shù)據(jù)聯(lián)邦的能力,數(shù)據(jù)虛擬化主要體現(xiàn)在數(shù)據(jù)實現(xiàn)統(tǒng)一接口的能力,數(shù)據(jù)聯(lián)邦實現(xiàn)跨數(shù)據(jù)的訪問跟計算。
邏輯數(shù)據(jù)倉庫的核心技術數(shù)據(jù)虛擬化和數(shù)據(jù)聯(lián)邦,數(shù)據(jù)虛擬化的能力解決了多種數(shù)據(jù)融合的問題,能夠融合管理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),通過統(tǒng)一的入口實現(xiàn)數(shù)據(jù)的隨處保存。數(shù)據(jù)聯(lián)邦能力通過融合多種計算模型,能夠融合在線分析和關聯(lián)分析、圖計算等多種計算模型,實現(xiàn)各種算法融合,繼而讓數(shù)據(jù)隨處使用;此外,聯(lián)邦能力還能夠把底層的多種引擎之間的數(shù)據(jù)進行打通,進行實時流轉(zhuǎn)。
下一代大數(shù)據(jù)平臺架構(gòu)
中間數(shù)據(jù)管理層,整個架構(gòu)是數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)分析挖掘、數(shù)據(jù)服務計算,傳統(tǒng)的平臺架構(gòu)都遵循這樣的架構(gòu),邏輯數(shù)據(jù)倉庫在數(shù)據(jù)處理這一層除了IoT平臺的實時處理以外的其他場景,全部融合成邏輯處理倉庫的模塊來進行統(tǒng)一處理。從下一代大數(shù)據(jù)平臺的架構(gòu)里面也能看出邏輯數(shù)據(jù)倉庫在整個架構(gòu)里承載著非常重要的功能。
云上邏輯數(shù)據(jù)倉庫架構(gòu)分為三層,第一層是統(tǒng)一的接口層,由于Hadoop平臺的廣泛應用,GBase GCDW支持標準的SQL接口。中間層實現(xiàn)了多引擎管理、統(tǒng)一用戶、統(tǒng)一元數(shù)據(jù)以及跨引擎查詢計劃。最底層實現(xiàn)了多引擎之間的統(tǒng)一數(shù)據(jù)交換、一致性管理、數(shù)據(jù)透明實時同步以及數(shù)據(jù)管理層保障。
通過統(tǒng)一的SQL接口,透明的跨引擎訪問以及全數(shù)據(jù)類型融合處理,跨域和多中心管理幾個方面實現(xiàn)數(shù)據(jù)虛擬化能力;通過全算法的融合,打通計算引擎間的數(shù)據(jù)的關聯(lián),數(shù)據(jù)生命周期管理實現(xiàn)數(shù)據(jù)的聯(lián)邦能力。
中間統(tǒng)一的邏輯數(shù)據(jù)倉庫支持多種存儲引擎以及計算引擎,對外提供統(tǒng)一的數(shù)據(jù)虛擬化層。張紹勇介紹說,整體而言,GBase GCDW通過把不同的存儲引擎面向不同場景,對用戶來說屏蔽了底層,只需要通過統(tǒng)一的數(shù)據(jù)虛擬化層來訪問不同的引擎,非常方便。
有了邏輯處理倉庫的能力,就能夠完美支撐數(shù)據(jù)湖、數(shù)據(jù)倉庫和數(shù)據(jù)集市。數(shù)據(jù)湖傳統(tǒng)的架構(gòu)基本是Hadoop+MPP支撐,通過邏輯數(shù)據(jù)倉庫統(tǒng)一把Hadoop+MPP的多引擎統(tǒng)一管理起來支撐數(shù)據(jù)湖的建設。傳統(tǒng)的數(shù)據(jù)倉庫、數(shù)據(jù)集市,主流是支持結(jié)構(gòu)化數(shù)據(jù)處理,用邏輯數(shù)據(jù)倉庫也能夠完美支持。這樣一款邏輯數(shù)據(jù)倉庫產(chǎn)品,能夠把架構(gòu)統(tǒng)一化、簡單化,一種技術架構(gòu)能同時支持數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)集市。
數(shù)據(jù)智能的實現(xiàn)
挖掘算法
原有的挖掘算法,實際上是在數(shù)據(jù)庫內(nèi)部沒有進行挖據(jù)算法之前,把數(shù)據(jù)導入前端工具,以Python的方式進行挖掘?qū)W習。把算法集成在MPP集群的內(nèi)部,就實現(xiàn)了分布式計算,從而提升了數(shù)據(jù)分析的性能且減少了數(shù)據(jù)搬遷。
數(shù)據(jù)安全
數(shù)據(jù)存儲加密,且要做到透明加密,把進行關注的列進行加密,只需要使用私鑰的Key文件,用戶使用是完全透明的,不需要調(diào)用加密算法。
存儲如果沒有加密,還需要對敏感數(shù)據(jù)進行脫敏。GBase 的動態(tài)脫敏技術主要有三種方式,對有關注的數(shù)據(jù)字段指定脫敏,可指定默認脫敏、隨機脫敏、自定義脫敏。脫敏方式指定完后,跟用戶權(quán)限綁定,僅讓有權(quán)限用戶看到明文數(shù)據(jù),沒有權(quán)限的用戶看到是秘文數(shù)據(jù)。密文有多種表達方式,通過動態(tài)數(shù)據(jù)脫敏實現(xiàn)了數(shù)據(jù)存儲本身沒有明文沒有加密,但前端根據(jù)不同的用戶權(quán)限控制數(shù)據(jù)的不同展現(xiàn)方式。
數(shù)據(jù)集成
下一代大數(shù)據(jù)平臺面臨的數(shù)據(jù)來源是多方面的,輸出也是多方面的,因此需要對數(shù)據(jù)進行集成整合。為了兼顧實時處理,一種是通過流式方法加入,第二種是通過CDC的方式,第三種是通過批量數(shù)據(jù)加載,此外還可以通過DBlink方式加載。
多種方式接入到邏輯數(shù)據(jù)倉庫以后,能夠進行在線庫跟離線庫的統(tǒng)一處理。處理完的結(jié)構(gòu)我們可以通過標準的開發(fā)結(jié)果的方式來提供給應用程序,或通過文件方式給到下游,抑或提供給訪問者。無論輸入或輸出,GBase 支持多種的數(shù)據(jù)集成方式。
數(shù)據(jù)接入完成后的快速算法
云上邏輯數(shù)據(jù)倉庫支持新一代向量計算引擎,傳統(tǒng)按行來處理,面臨函數(shù)調(diào)用開銷比較大的問題,無法充分利用現(xiàn)在CPU的SIMD的指令集,要支持新一代的向量計算引擎,能夠按塊計算,從而提升數(shù)據(jù)的運行能力。隨著國產(chǎn)化的推進,GBase 現(xiàn)在基于NUMA架構(gòu),在NUMA架構(gòu)的基礎上,發(fā)揮多種架構(gòu)的優(yōu)勢,提供多實例部署方式,原來是部署一個實例,現(xiàn)在根據(jù)NUMA綁定到多個使命,帶來的優(yōu)勢是避免了跨NUMA內(nèi)存訪問性能還是比較低的問題,提升了在多NUMA架構(gòu)上的運算性能。
2020年底,GBase 只需要8臺物理機就可以達到894萬的Performance值。數(shù)據(jù)庫產(chǎn)品的核心要把硬件能力充分發(fā)揮出來,這也是作為基礎軟件要持續(xù)努力要做的工作。
集群規(guī)模也是GBase 一直追求的目標,分布式要解決的問題也是數(shù)據(jù)的容量如何擴大,從GB級到PB級,GBase 做了兩方面的測試,一是數(shù)據(jù)基礎能力測試,一個是性能測試?;A能力測試覆蓋能各個方面,性能側(cè)在金融和電信兩個場景進行了測試。截至目前,GBase 在國內(nèi)MPP規(guī)模最大,單個MPP集群達到4096個節(jié)點,并且通過了基于金融電信兩個模型的性能測試,是國內(nèi)首家。
云上數(shù)據(jù)倉庫如何上云
上云是兩個方面,一是上私有云,二是上公有云。GBase 支持兩種方式,一個是私有云上的塊和對象存儲,第二個是公有云對象存儲。云上邏輯數(shù)據(jù)倉庫完全搬到公有云、私有云上,并且已經(jīng)有實踐案例。數(shù)據(jù)接入和運維能力管理的核心是中間數(shù)據(jù)倉庫的虛擬倉庫層、計算層,實現(xiàn)了數(shù)據(jù)按照不同的邏輯有分成不同的虛擬倉庫,底層存儲層實現(xiàn)塊跟對象的兩種方式,公有云上主要是對象存儲,私私有云上可以是塊和對象存儲。
中間層,即虛擬倉庫層,邏輯上對用戶來說是上層通過統(tǒng)一的接入層實現(xiàn)了統(tǒng)一的調(diào)度管理;中間層,用戶根據(jù)不同的業(yè)務建立獨立的虛擬倉,支撐不同的關注業(yè)務。不同的虛擬倉庫之間,底層數(shù)據(jù)是共享的,最上層統(tǒng)一調(diào)度實現(xiàn)統(tǒng)一訪問,在不同的虛擬倉庫之間實現(xiàn)了故障隔離、資源的隔離,并且每個獨立的虛擬倉庫可以獨立擴容,用戶運維更加簡單。
湖倉一體核心有三個特性,第一點,既然是湖倉一體,它的存儲是共享的;第二點,湖倉一體多個引擎之間數(shù)據(jù)之間要融合打通,也就是數(shù)據(jù)聯(lián)邦能力,數(shù)據(jù)關聯(lián)運算;第三點,一份數(shù)據(jù)面向不同的場景,有多種計算引擎要支持,需要多種計算引擎多模的能力。
云上邏輯數(shù)據(jù)倉庫能夠支持湖倉,數(shù)據(jù)共享,計算存儲分離,滿足了上述第一點;邏輯數(shù)據(jù)倉庫支持了多個計算引擎,滿足第二點;邏輯數(shù)據(jù)倉庫本身把多引擎數(shù)據(jù)、關聯(lián)計算、數(shù)據(jù)交換打通,滿足了第三點。
存儲層實現(xiàn)了一站式數(shù)據(jù)存儲。中間彈性計算層支持虛擬機、容器、裸金屬多種方式。最上層實現(xiàn)了一站式數(shù)據(jù)治理,使數(shù)據(jù)資產(chǎn)化。因此云上邏輯數(shù)據(jù)倉庫的能力,能夠完美支持湖倉一體下一代企業(yè)級數(shù)據(jù)倉庫建設。平臺部署在云上,整個數(shù)據(jù)存儲集成,數(shù)據(jù)管理、平臺管理都屬于PaaS,在這基礎之上提供SaaS層的數(shù)據(jù)服務。整個基礎架構(gòu)再加服務,以DaaS的方式對外提供服務。
張紹勇總結(jié)說,為了解決傳統(tǒng)數(shù)倉面臨的六大挑戰(zhàn),我們提出了下一代企業(yè)級數(shù)據(jù)倉庫主要演進的方向——云化、分布式、實時、智能、安全。通過邏輯數(shù)據(jù)倉庫提供分布式能力,融合處理、實時和安全能力,從而實現(xiàn)了全類型數(shù)據(jù)的融合,解決整個數(shù)據(jù)存儲和處理的問題。通過機器學習 in Database AI的集成,實現(xiàn)了數(shù)據(jù)價值的挖掘。把整個邏輯數(shù)據(jù)倉庫搬到云上,以DaaS的方式對外提供服務,實現(xiàn)了DaaS、IaaS、PaaS的融合,繼而實現(xiàn)了上云的能力。
綜上,云上邏輯數(shù)據(jù)倉庫為數(shù)字行業(yè)信息化找到了支點,解決了傳統(tǒng)數(shù)據(jù)倉庫面臨的六個挑戰(zhàn)以及下一代企業(yè)級大數(shù)據(jù)庫應該解決的六個方面的問題,GBase 能夠完美支撐下一代企業(yè)級大數(shù)據(jù)倉庫。
GBase 支持多云、混合云,支持海內(nèi)外的公有云、私有云,通過統(tǒng)一的接口層實現(xiàn)對塊存儲、對象存儲數(shù)據(jù)的統(tǒng)一訪問,通過計算引擎實現(xiàn)了緩沖管理,對象存儲的性能比較低,需要進行多級緩沖管理加速執(zhí)行性能,為用戶提供接入的調(diào)度層實現(xiàn)統(tǒng)一資源的調(diào)度。有了上述幾層能力之后,就能夠為用戶提供云服務的整個訂購、服務的入口和統(tǒng)一的管理。
關于南大通用公司
南大通用到目前已經(jīng)成立17年,專注于數(shù)據(jù)庫跟大數(shù)據(jù)產(chǎn)品的研發(fā),是國內(nèi)目前唯一一家在金融電信行業(yè)得到規(guī)?;瘧玫臄?shù)據(jù)庫企業(yè),在金融電信領域擁有大量客戶,形成了主流的三款大數(shù)據(jù)產(chǎn)品。
南大通用入圍2017、2018年Gartner分析型數(shù)據(jù)庫魔力象限,2019年Gartner發(fā)布的全球19款數(shù)據(jù)倉庫產(chǎn)品排名,GBase GCDW排名全球第七,是國內(nèi)唯一上榜產(chǎn)品。
南大通用在中國市場取得了巨大成功,在金融電信領域部署MPP倉庫,提供邏輯數(shù)據(jù)倉庫解決方案,也業(yè)內(nèi)相處于領先地位,并覆蓋除電信金融外的其他各行業(yè),總節(jié)點超過3萬。
GBase GCDW助力中國農(nóng)業(yè)銀行總行建設了集中化的大數(shù)據(jù)平臺,總的節(jié)點數(shù)超過2000,穩(wěn)定運行超2000天。
GBase GCDW在中國銀行,中國人民銀行、招商銀行等大國有銀行和股份制銀行也都有應用,并覆蓋大量城商銀行、農(nóng)信社。
在電信行業(yè),南大通用助力中國移動集團總部部署了集中經(jīng)營分析系統(tǒng),也超過了上千節(jié)點,覆蓋了中國移動全國31個省中的22個省,覆蓋率超過80%。
在其他的行業(yè),如保險、電力、政務、黨政這些行業(yè),南大通用也得到了大規(guī)模的應用。無論線下還是上云,GBase GCDW都能夠支撐企業(yè)下一代的數(shù)倉、大數(shù)據(jù)平臺建設。
未來,南大通用將繼續(xù)專注于數(shù)據(jù)庫軟件產(chǎn)品和服務,致力于成為用戶最信賴的數(shù)據(jù)庫產(chǎn)品服務商。