GBase新聞
GBASE金融應(yīng)用指南1 | 分布式分析型數(shù)據(jù)庫(kù)概述
GBASE南大通用二十年專(zhuān)注數(shù)據(jù)庫(kù)研發(fā),主導(dǎo)產(chǎn)品GBase數(shù)據(jù)庫(kù)經(jīng)歷20年持續(xù)發(fā)展迭代,已形成了覆蓋不同業(yè)務(wù)場(chǎng)景的成熟數(shù)據(jù)庫(kù)產(chǎn)品體系。其中,2011年發(fā)布的GBase 8a MPP Cluster大規(guī)模分布式數(shù)據(jù)庫(kù)集群,經(jīng)過(guò)十余年持續(xù)升級(jí)完善,始終與國(guó)際同類(lèi)主流水平保持同步,已在金融、電信、政務(wù)、能源、交通等各行業(yè)規(guī)模部署,完成眾多行業(yè)高端客戶(hù)核心系統(tǒng)的建設(shè)和改造升級(jí)案例,切實(shí)滿(mǎn)足了各數(shù)據(jù)密集型行業(yè)海量高價(jià)值數(shù)據(jù)分析、挖掘、備份、即席查詢(xún)等業(yè)務(wù)需求。
為幫助金融機(jī)構(gòu)做好分布式分析型數(shù)據(jù)庫(kù)產(chǎn)品的選型,推廣在金融行業(yè)部署應(yīng)用分布式分析型數(shù)據(jù)庫(kù)的成功經(jīng)驗(yàn),GBASE南大通用在北京金融科技產(chǎn)業(yè)聯(lián)盟的指導(dǎo)下編寫(xiě)《南大通用GBase 8a金融應(yīng)用指南》。《指南》深入介紹了分布式分析型數(shù)據(jù)庫(kù)從選型規(guī)劃、開(kāi)發(fā)設(shè)計(jì)規(guī)范、數(shù)據(jù)安全高可用,直至運(yùn)維優(yōu)化的部署全過(guò)程,并介紹了GBase 8a MPP Cluster在國(guó)家政策性銀行和國(guó)有大行的代表性部署案例。
GBASE南大通用將陸續(xù)推出系列文章,分享解讀《指南》內(nèi)容,希望能夠?qū)V大金融用戶(hù)的數(shù)據(jù)庫(kù)選型提供借鑒幫助,助力科技金融的高效實(shí)施和高質(zhì)量發(fā)展。
本篇是系列文章的第1期,將從分布式分析型數(shù)據(jù)庫(kù)的特點(diǎn)分類(lèi),及金融行業(yè)應(yīng)用場(chǎng)景兩方面展開(kāi)論述。
分布式分析型數(shù)據(jù)庫(kù)概述
1、分布式分析型數(shù)據(jù)庫(kù)的特點(diǎn)及分類(lèi)
隨著數(shù)字經(jīng)濟(jì)的發(fā)展,數(shù)據(jù)要素已經(jīng)成為了和土地、人力、資本、技術(shù)并列的生產(chǎn)要素,數(shù)據(jù)資產(chǎn)價(jià)值會(huì)隨著數(shù)據(jù)量而提高,各行業(yè)對(duì)于數(shù)據(jù)的存儲(chǔ)和應(yīng)用產(chǎn)生了很多新的需求,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)模型和技術(shù)面臨著諸多挑戰(zhàn)。
挑戰(zhàn)1:分析系統(tǒng)中數(shù)據(jù)規(guī)模龐大且變化的速度快、增量大,且數(shù)據(jù)有持久性存儲(chǔ)需求。要求數(shù)據(jù)倉(cāng)庫(kù)有存儲(chǔ)大量歷史數(shù)據(jù)能力和在線(xiàn)擴(kuò)展能力。
挑戰(zhàn)2:分析系統(tǒng)中業(yè)務(wù)變化愈發(fā)頻繁,有智能化發(fā)展趨勢(shì),能滿(mǎn)足即席查詢(xún)和數(shù)據(jù)價(jià)值發(fā)現(xiàn)的需求。要求數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)全面、粒度要細(xì),支持?jǐn)?shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。
挑戰(zhàn)3:針對(duì)分析業(yè)務(wù)的不確定,數(shù)倉(cāng)的Schema on write提前建模,前期耗費(fèi)時(shí)間長(zhǎng),后期通用性弱。要求數(shù)據(jù)倉(cāng)庫(kù)能存儲(chǔ)所有原始數(shù)據(jù),延遲建模。
挑戰(zhàn)4:數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)所有原始數(shù)據(jù)并延遲建模,會(huì)產(chǎn)生數(shù)據(jù)來(lái)源廣,結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)混雜,數(shù)據(jù)使用人員多等情況。要求數(shù)據(jù)倉(cāng)庫(kù)能有效治理各類(lèi)數(shù)據(jù),避免數(shù)據(jù)沼澤、數(shù)據(jù)泥團(tuán),數(shù)據(jù)庫(kù)要有完善的安全機(jī)制保護(hù)數(shù)據(jù)完整和數(shù)據(jù)安全。
挑戰(zhàn)5:對(duì)分析結(jié)果的實(shí)時(shí)性要求越來(lái)越高,要求數(shù)據(jù)倉(cāng)庫(kù)能有實(shí)時(shí)數(shù)據(jù)、流式數(shù)據(jù)接入的方案。
挑戰(zhàn)6:分析系統(tǒng)的運(yùn)行承載企業(yè)各項(xiàng)分析業(yè)務(wù),運(yùn)行的穩(wěn)定性要有保障,即業(yè)務(wù)的連續(xù)性和數(shù)據(jù)的完整性要有保障。要求有備份方案、雙活的解決方案來(lái)保障數(shù)據(jù)的完整和業(yè)務(wù)的連續(xù)。
分布式分析型數(shù)據(jù)庫(kù)從20世紀(jì)末至今,經(jīng)過(guò)近30年的發(fā)展應(yīng)用,現(xiàn)階段開(kāi)始向云原生數(shù)據(jù)倉(cāng)庫(kù)演進(jìn)。可以較好的解決以上挑戰(zhàn)和要求,滿(mǎn)足數(shù)據(jù)倉(cāng)庫(kù)未來(lái)向湖倉(cāng)一體架構(gòu)演進(jìn)的趨勢(shì)。
使用分布式分析型數(shù)據(jù)庫(kù)搭建數(shù)據(jù)倉(cāng)庫(kù)具有標(biāo)準(zhǔn)易用的SQL語(yǔ)言、契合于各行各業(yè)常見(jiàn)分析需求的數(shù)據(jù)模型,滿(mǎn)足多樣化數(shù)據(jù)挖掘分析需求,易于將需要的數(shù)據(jù)按照方便分析的模型集成到數(shù)據(jù)倉(cāng)庫(kù)中,獲取數(shù)據(jù)和分析結(jié)果方便快捷等優(yōu)點(diǎn)。
南大通用大規(guī)模分布式并行數(shù)據(jù)庫(kù)集群系統(tǒng)GBase 8a MPP Cluster從發(fā)布至今有十余年的行業(yè)規(guī)模化應(yīng)用,緊貼市場(chǎng)需求,具有虛擬集群、多租戶(hù)、在線(xiàn)快速擴(kuò)展、在線(xiàn)節(jié)點(diǎn)替換、高可用性、高安全性等金融行業(yè)關(guān)注的基礎(chǔ)功能特性和雙活集群、流式數(shù)據(jù)集成、機(jī)器學(xué)習(xí)算法集成、異構(gòu)計(jì)算引擎統(tǒng)一調(diào)度全數(shù)據(jù)統(tǒng)一管理等高級(jí)功能。
2、分布式分析型數(shù)據(jù)庫(kù)金融行業(yè)應(yīng)用場(chǎng)景
金融行業(yè)業(yè)務(wù)復(fù)雜多樣,大數(shù)據(jù)分析應(yīng)用場(chǎng)景涵蓋批處理、交互式查詢(xún)、數(shù)據(jù)挖掘、湖倉(cāng)一體和實(shí)時(shí)數(shù)倉(cāng)。GBase 8a MPP Cluster在各應(yīng)用場(chǎng)景中的適用情況如下圖所示。
GBase 8a MPP Cluster應(yīng)用場(chǎng)景占比
批處理場(chǎng)景:
處理的數(shù)據(jù)量大、業(yè)務(wù)邏輯較復(fù)雜、資源占用大,數(shù)據(jù)處理分析的時(shí)效性一般為T(mén)+1,任務(wù)并發(fā)數(shù)在100以下。GBase 8a MPP Cluster的列存儲(chǔ)引擎和優(yōu)化器、豐富的OLAP函數(shù)、復(fù)雜SQL執(zhí)行優(yōu)化、高性能數(shù)據(jù)導(dǎo)入等非常適用于此類(lèi)場(chǎng)景。
交互式查詢(xún)場(chǎng)景:
查詢(xún)響應(yīng)時(shí)間要求較高,能夠?qū)崿F(xiàn)人機(jī)之間交互。GBase 8a MPP Cluster的智能索引、壓縮、支持高并發(fā)查詢(xún)等可提供高性能的即席查詢(xún)支撐,提供的數(shù)據(jù)加密、脫敏、權(quán)限管理等的數(shù)據(jù)安全機(jī)制為交互式查詢(xún)場(chǎng)景保駕護(hù)航。
數(shù)據(jù)挖掘場(chǎng)景:
使用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)系統(tǒng)等交叉技術(shù),來(lái)查看和發(fā)現(xiàn)大型數(shù)據(jù)集中隱藏的一些模式。GBase 8a MPP Cluster提供的機(jī)器學(xué)習(xí)算法可以對(duì)用戶(hù)數(shù)據(jù)進(jìn)行深層次的分析和挖掘,將用戶(hù)數(shù)據(jù)轉(zhuǎn)化為用戶(hù)價(jià)值。
湖倉(cāng)一體場(chǎng)景:
湖倉(cāng)一體是一種新型的開(kāi)放式架構(gòu),打通了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,融合數(shù)據(jù)倉(cāng)庫(kù)的高性能及管理能力與數(shù)據(jù)湖的靈活性。底層支持多種數(shù)據(jù)類(lèi)型并存,實(shí)現(xiàn)數(shù)據(jù)間的相互共享,上層通過(guò)統(tǒng)一封裝的接口進(jìn)行訪(fǎng)問(wèn),可同時(shí)支持實(shí)時(shí)查詢(xún)和分析,為企業(yè)進(jìn)行數(shù)據(jù)治理帶來(lái)了更多的便利性。GBase 8a MPP Cluster提供與Hadoop平臺(tái)的多種融合方案:通過(guò)異構(gòu)引擎融合實(shí)現(xiàn)統(tǒng)一訪(fǎng)問(wèn)接口、統(tǒng)一數(shù)據(jù)視圖、統(tǒng)一計(jì)算調(diào)度;通過(guò)雙向的HDFS數(shù)據(jù)導(dǎo)出加載實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)中高速流轉(zhuǎn)。
實(shí)時(shí)數(shù)倉(cāng)場(chǎng)景:
實(shí)時(shí)數(shù)倉(cāng)要求數(shù)據(jù)實(shí)時(shí)入庫(kù),不同于離線(xiàn)數(shù)倉(cāng)響應(yīng)時(shí)間需求的T+1,實(shí)時(shí)數(shù)倉(cāng)響應(yīng)時(shí)間實(shí)時(shí)性要求高(分鐘級(jí)乃至秒級(jí)),常應(yīng)用于實(shí)時(shí) OLAP 分析、實(shí)時(shí)數(shù)據(jù)看板、實(shí)時(shí)業(yè)務(wù)監(jiān)控、實(shí)時(shí)數(shù)據(jù)接口服務(wù)等。GBase 8a MPP Cluster采用微批數(shù)據(jù)加載、kafka消息流實(shí)時(shí)入庫(kù)等方式,能滿(mǎn)足小時(shí)級(jí)、分鐘級(jí)、秒級(jí)的數(shù)據(jù)入庫(kù)和數(shù)據(jù)分析。