中國人保壽險數據倉庫項目
項目概況
項目背景
中國人壽于 2018 年采購了 GBase 8a MPP Cluster 集群數據庫,部署數十節點集群,作為生產環境支持了分支機構數據 BI 下發系統、數據倉庫升級改造等項目的建設,一定程度上緩解了公司數據類項目對 Oracle 及數據一體機環境的依賴,在滿足計算效率的同時,降低公司對數據機擴容的成本。
自 2018 年部署完成后,至今一直支持分公司 BI 數據下發系統使用,系統運行穩定。 自 2020 年 1 月,數據倉庫升級改造項目正式啟動實施,2021 年完成系統建設并進入試運行階段。投入試運行的數據倉庫系統將主要在 GBase 數據庫上運行,主要承擔操作數據區、主題數據區、通用數據區、應用數據區的數據存儲以及各數據區之間的數據加工邏輯處理工作,同時需要承擔部分應用的數據直連查詢、接口數據查詢等工作。基于目前實施階段對于源數據及各層數據、邏輯、支持應用的情況,建議在現有基礎上對數據庫進行擴容,以保證數據倉庫系統穩定高效運行。
建設目標
數據倉庫升級改造項目在現有節點 GBase 8a 集群基礎上擴容集群規模至近百個節點,作為數據倉庫未來支撐數據類系統的基礎支持和大量數據分析應用系統,保證數據倉庫系統穩定高效運行。項目需求如下:
完成 GBase 8a 集群的節點擴展,支持線性的資源擴展,性能線性提升;
在不影響業務系統運行的基礎上,完成在線節點擴容;
擴容期間對數據庫進行監控,支持擴容期間的并行度調整,支持調整數據重分布的
南大通用數據技術股份有限公司GBase 解決方案成功案例并行度,支持調整數據重分布的優先級,降低擴容時數據重分布對于業務執行的影響。
解決方案
為更好的支持人保壽險的業務發展,提升公司經營管理數字化水平,人保壽采購分布式數據庫軟件,完成數據架構升級相關項目。系統采用 GBase 8a MPP Cluster 集群搭建,GBase 8a 面向分析型應用領域,以列存為基本存儲方式和數據運算對象,結合列數據壓縮處理、并行處理、快速智能索引等新型數據處理技術,在查詢、統計、分析以及批量加載性能上具備突出的優勢。
項目一期建設采購數十個節點,數據倉庫主要承擔操作數據區、主題數據區、通用數據區、應用數據區的數據存儲以及各數據區之間的數據加工邏輯處理工作,同時需要承擔部分應用的數據直連查詢、接口數據查詢等工作。隨著業務的發展,本次擴容近百個節點,需要承擔總公司報表系統、管理駕駛艙系統和大數據平臺系統。
應用效果
實施情況
集群規模:當前共近百個個data節點,數個個coordinator節點,其中 coordinator 和 data 南大通用數據技術股份有限公司GBase 解決方案成功案例節點共用;
數據量:總數據量約百余T;
業務相關的日增量:日增量約數百G;
并發量:夜間跑批峰值數十并發; 白天查詢目前并發量不大,峰值數并發左右;
性能情況:夜間跑批基本在5小時之內完成,由于文件是分批到達,到達一批就加載一 批,因此這個時間也包含了等待文件到達的時間,暫無法和之前的跑批性能進行對比; 白天復雜的報表查詢基本能在 2 分鐘之內完成。
效果及價值
GBase 8a集群擴容到近百節點,提升了數據倉庫的計算能力和應用效果:
統一數據服務平臺,集群規模從數十節點擴容到近百節點,存儲能力提;可以實 現統一數據服務,為多場景分析提供統一數據服務;
性能提升,擴容后,在增加了倍數數倉業務的情況下,分公司BI業務跑批性能仍 然提升了70%以上,整體的跑批任務可以在5小時之內完成;
高性價比,構建合理的“投入產出比”,提供線性靈活擴展能力;
國產數據庫產品,符合政府對自主可控的信息國產化的要求。