蘭州銀行數(shù)據(jù)倉庫MPP分布式數(shù)據(jù)庫替換項(xiàng)目
項(xiàng)目概況
蘭州銀行現(xiàn)有數(shù)據(jù)平臺(tái)作為監(jiān)管報(bào)送、行內(nèi)報(bào)表及各應(yīng)用系統(tǒng)的基礎(chǔ)數(shù)據(jù)整合及服務(wù)平臺(tái),目前存在數(shù)據(jù)批量處理效率低下、各下游應(yīng)用系統(tǒng)數(shù)據(jù)實(shí)效性得不到保障,實(shí)時(shí)數(shù)據(jù)服務(wù)能力、模型加工能力及數(shù)據(jù)統(tǒng)一管理能力不足等問題。為解決現(xiàn)有問題,采用行業(yè)主流技術(shù)架構(gòu)建設(shè)數(shù)據(jù)倉庫,對(duì)數(shù)據(jù)進(jìn)行整合加工,實(shí)現(xiàn)全行數(shù)據(jù)統(tǒng)一管理,提升數(shù)據(jù)處理效率,為各應(yīng)用系統(tǒng)提供統(tǒng)一數(shù)據(jù)服務(wù),同時(shí)配合數(shù)據(jù)管控平臺(tái)實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)落地。目前我行數(shù)據(jù)倉庫在數(shù)據(jù)庫層面面臨的挑戰(zhàn)和迫切需要解決的問題如下
容量擴(kuò)展能力:原有數(shù)據(jù)平臺(tái)交易型數(shù)據(jù)庫運(yùn)行在一體機(jī)上,一體機(jī)容量有限,隨著數(shù)據(jù)量的不斷增大,一體機(jī)容量擴(kuò)容難度大、成本高。新建的 MPP 分布式數(shù)據(jù)庫應(yīng)具備易擴(kuò)展的能力,能夠在線進(jìn)行計(jì)算能力和存儲(chǔ)能力擴(kuò)展。
大數(shù)據(jù)統(tǒng)計(jì)性能:在數(shù)據(jù)量不斷增大的現(xiàn)狀下,交易型數(shù)據(jù)庫性能正在變差,難以承載數(shù)據(jù)倉庫對(duì)海量數(shù)據(jù)進(jìn)行大表關(guān)聯(lián)查詢、數(shù)據(jù)統(tǒng)計(jì)分析效率得不到保證。新建的 MPP 分布式數(shù)據(jù)庫應(yīng)具備對(duì)海量數(shù)據(jù)進(jìn)行大表關(guān)聯(lián)查詢、分組、聚合、OLAP、統(tǒng)計(jì)分析的能力。
數(shù)據(jù)副本能力:現(xiàn)有交易型數(shù)據(jù)庫采用集中化共享存儲(chǔ)的模式,數(shù)據(jù)僅有一份,數(shù)據(jù)備份通過傳統(tǒng)磁帶庫進(jìn)行備份,面對(duì)大數(shù)據(jù)磁帶庫進(jìn)行備份和恢復(fù)的時(shí)間非常久,面對(duì)故障時(shí)無法快速恢復(fù)。新建的 MPP 分布式數(shù)據(jù)庫應(yīng)具備數(shù)據(jù)多副本技術(shù),通過分布式的數(shù)據(jù)存儲(chǔ)提高數(shù)據(jù)庫高可用性。
便捷的運(yùn)維能力:隨著數(shù)據(jù)量快速增長(zhǎng),原有交易型數(shù)據(jù)庫的運(yùn)維難度越來越大,需要投入大量的精力應(yīng)對(duì)故障和性能問題。新建的 MPP 分布式數(shù)據(jù)庫應(yīng)具備操作界面便捷,提供圖形化的運(yùn)維工具,易于故障排查和處理,降低運(yùn)維的復(fù)雜度。數(shù)據(jù)倉庫 MPP 分布式數(shù)據(jù)庫建設(shè)目標(biāo)是依托我行基礎(chǔ)網(wǎng)絡(luò)的基礎(chǔ)資源,融合分布式的存儲(chǔ)和計(jì)算技術(shù),整合優(yōu)化掌握的各類信息資源,強(qiáng)化信息共享應(yīng)用管理,按照安全可控的要求構(gòu)建信息資源體系,為應(yīng)用建設(shè)提供信息資源服務(wù)支撐。數(shù)據(jù)倉庫 MPP 分布式數(shù)據(jù)庫建成后,將能容納海量的、多種類型、多種結(jié)構(gòu)的數(shù)據(jù),并具備全部數(shù)據(jù)資源統(tǒng)一管理功能,同時(shí)為數(shù)據(jù)倉庫應(yīng)用提供多種數(shù)據(jù)計(jì)算和服務(wù)支撐。
解決方案
主庫集群3個(gè)協(xié)調(diào)節(jié)點(diǎn),10個(gè)計(jì)算節(jié)點(diǎn)。主庫集群需10臺(tái)服務(wù)器上部署MPP數(shù)據(jù)庫軟件。采用GBase 8a MPP Cluster數(shù)據(jù)庫集群,每臺(tái)服務(wù)器配置2個(gè)萬兆網(wǎng)卡,雙網(wǎng)卡綁定,分別連接到2臺(tái)萬兆交換機(jī)上,形成高可用,用于GBase 8a MPP Cluster數(shù)據(jù)庫節(jié)點(diǎn)之間高速數(shù)據(jù)交換;配置2個(gè)千兆網(wǎng)卡,雙網(wǎng)卡綁定,分別連接到2臺(tái)千兆交換機(jī)上,形成高可用,用于GBase 8a MPP Cluster數(shù)據(jù)庫集群與其外部節(jié)點(diǎn)如應(yīng)用服務(wù)器、監(jiān)控服務(wù)器等數(shù)據(jù)交換,系統(tǒng)典架構(gòu)圖如下:
數(shù)據(jù)來源層:是銀行現(xiàn)有的各種業(yè)務(wù)系統(tǒng);
抽取加載層:通過ETL的工具,從源系統(tǒng)中將海量數(shù)據(jù)抽取出來進(jìn)行抽取、加載、轉(zhuǎn)換等操作;
存儲(chǔ)管理層:加載機(jī)將海量數(shù)據(jù)進(jìn)行清洗后,按照一定的規(guī)則,將數(shù)據(jù)按照一定的規(guī)律分發(fā)到各節(jié)點(diǎn)上,建立數(shù)據(jù)主倉——數(shù)據(jù)倉庫和數(shù)據(jù)集市,集市根據(jù)倉庫的業(yè)務(wù)不同,各集市的規(guī)模也不同;
分析展示層:銀行通過第三方分析挖掘工具將數(shù)據(jù)從數(shù)據(jù)倉庫或數(shù)據(jù)集市中提取出來,進(jìn)行進(jìn)一步的分析,加載到相應(yīng)的業(yè)務(wù)模塊中;
應(yīng)用門戶層:銀行的內(nèi)部系統(tǒng)或外部系統(tǒng),通過中間件將各個(gè)模塊所需要的數(shù)據(jù)整理后通過門戶網(wǎng)站呈現(xiàn)出來。
蘭州銀行數(shù)據(jù)倉庫主要完成海量數(shù)據(jù)的統(tǒng)一存儲(chǔ)、管理、信息共享和數(shù)據(jù)資源服務(wù)提供,并作為應(yīng)用系統(tǒng)的支撐,針對(duì)不同的業(yè)務(wù)建立不同的專題,建立完善的數(shù)據(jù)采集、加載、存儲(chǔ)、分析和應(yīng)用展示的架構(gòu)體系。
蘭州銀行數(shù)據(jù)倉庫主要涉及系統(tǒng)中的存儲(chǔ)管理層和抽取加載層,其核心功能組件主要包含四個(gè)部分,分別是:前置系統(tǒng)、ETL平臺(tái)、數(shù)據(jù)倉庫和統(tǒng)一數(shù)據(jù)服務(wù)接口。其中:
前置系統(tǒng):將采集的全部數(shù)據(jù)按源系統(tǒng)的數(shù)據(jù)格式臨時(shí)存儲(chǔ),屏蔽對(duì)源系統(tǒng)的干擾,為數(shù)據(jù)檢查和ETL數(shù)據(jù)處理做好準(zhǔn)備;
ETL平臺(tái):通過進(jìn)行高效數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)加載等,完成對(duì)海量數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程;
數(shù)據(jù)倉庫:數(shù)據(jù)倉庫通過對(duì)數(shù)據(jù)平臺(tái)中所涉及的數(shù)據(jù)進(jìn)行存儲(chǔ)、分析,并能夠支撐應(yīng)用層的業(yè)務(wù)需要,進(jìn)行查詢、統(tǒng)計(jì)和展示的實(shí)現(xiàn);
統(tǒng)一數(shù)據(jù)服務(wù)接口:統(tǒng)一數(shù)據(jù)服務(wù)接口是高性能服務(wù)接口,為上層應(yīng)用提供統(tǒng)一的數(shù)據(jù)服務(wù),滿足數(shù)據(jù)查詢、數(shù)據(jù)互操作、數(shù)據(jù)交換、數(shù)據(jù)分析、目錄服務(wù)、綜合查詢、信息比對(duì)等業(yè)務(wù)應(yīng)用的需要。
為了保證系統(tǒng)的性能同時(shí)實(shí)現(xiàn)數(shù)據(jù)的共享、數(shù)據(jù)分析的需要,將數(shù)據(jù)存儲(chǔ)管理層的數(shù)據(jù)分為三個(gè)層次:操作數(shù)據(jù)ODS層、數(shù)據(jù)倉庫DW層、數(shù)據(jù)集市DM層。MPP數(shù)據(jù)庫一般運(yùn)行于數(shù)據(jù)倉庫DW層和數(shù)據(jù)集市DM層。如下圖所示:
數(shù)據(jù)倉庫與數(shù)據(jù)集市示意圖
應(yīng)用效果
實(shí)施情況
蘭州銀行數(shù)據(jù)倉庫系統(tǒng)于2023年7月正式上線使用,隨著業(yè)務(wù)系統(tǒng)的不斷擴(kuò)展,數(shù)據(jù)存儲(chǔ)空間迅速膨脹,目前數(shù)據(jù)庫集群10個(gè)節(jié)點(diǎn)中,每個(gè)數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)存儲(chǔ)量為2.4TB*14=33.6TB(實(shí)際約31T),總數(shù)據(jù)量已達(dá)到248T,數(shù)據(jù)庫集群數(shù)據(jù)存儲(chǔ)利用率已超過80%,2024年2月進(jìn)行項(xiàng)目擴(kuò)容申請(qǐng),計(jì)劃再擴(kuò)容10個(gè)節(jié)點(diǎn),總數(shù)據(jù)量規(guī)劃1.2PB。項(xiàng)目依據(jù)中標(biāo),近期進(jìn)行擴(kuò)容實(shí)施。
效果及價(jià)值
高擴(kuò)展:替換國外數(shù)據(jù)庫一體機(jī),解決擴(kuò)容難,成本高問題;實(shí)現(xiàn)在線計(jì)算能力擴(kuò)展,存儲(chǔ)能力擴(kuò)展。
高性能:大幅度提升海量數(shù)據(jù)大表關(guān)聯(lián)查詢、數(shù)據(jù)分組、聚合、OLAP、統(tǒng)計(jì)分析性能。
高可用:采用雙活集群、數(shù)據(jù)多副本、分布式MPP等技術(shù),提高數(shù)據(jù)庫可靠性和可用性。
易維護(hù):操作界面便捷,提供圖形化的運(yùn)維工具,易于故障排查和處理,降低運(yùn)維的復(fù)雜度。