GBase 8a
分布式邏輯數據倉庫GBase 8a
產品簡介
市場定位
GBase 8a分析型數據庫的主要市場是商業分析和商業智能市場。產品主要應用在政府、黨委、安全敏感部門、國防、統計、審計、銀監、證監等領域,以及電信、金融、電力等擁有海量業務數據的行業。
關鍵指標
- 真正的列存儲,數據壓縮比最高可達1:30
- 自動提供粗粒度智能索引,高效過濾,膨脹小,免維護
- 集群支持100PB以上結構化裸數據單結點100TB裸數據
- 支持并行計算,充分利用現代的 SMP 多核 CPU 資源
- 集群加載速度大于30TB/小時
- 集群支持事務的可重復讀(RR)隔離級別和快照隔離級別,支持MVCC多版本并發控制
產品架構 · 技術特性
- 支持標準Linux 內核:Cent OS,Redhat, Suse等
- 支持基于x86-64和ARM的標準PC服務器
- 支持本地存儲(Sata, SAS, SSD etc)
- 支持陣列部署(SAN,NAS)
- 支持SSD,Flash存儲介質作為2級I/O緩存
- 持標準SQL
- 提供通用API: JDBC, ODBC,CAPI,ADO.Net
- 集群支持分布式事務,支持主副本分片的事務高可用,支持事務原子性
產品FAQ
- Q:GBase 8a能干什么?A:GBase 8a能夠實現大數據的全數據(結構化數據、半結構化數據和非結構化數據)存儲管理和高效分析,為行業大數據應用提供完整的數據庫解決方案。
- Q:GBase 8a的水平如何?A:GBase 8a能夠在百TB至PB級數據規模下實現數據查詢的秒級響應;能夠幫助客戶節省50%-90%存儲空間;能夠為客戶節省50%-90%的投資和運維成本;能夠對結構化、半結構化和非結構化數據進行統一處理;能夠實現千億級文本條目全文檢索的秒級響應;能夠提供全過程可視化的數據查詢分析及展現工具。
- Q:GBase 8a目前有什么成功案例?A:GBase 8a已經在電信、金融和政務等領域取得規模化市場應用,主要包括中國移動、中國聯通、中國電信、銀監會、公安部、安全部、工信部、國稅總局、國家海洋局、中國石油等。
- Q:GBase 8a在項目中的測試情況如何?A:參加了150多次用戶現場測試:中國移動集團下一代數據倉庫選型測試前三名,是唯一入圍的國產產品;在公安部、招商銀行、新疆移動、吉林移動、中興通訊、用友軟件等單位的項目測試中取得了優異的成績,獲得用戶的一致好評。
- Q:GBase 8a的事務支持到什么程度?A:GBase 8a通過表屬性方式設置該表支持行存儲、列存儲以及支持事務日志。GBase 8a事務表支持行級鎖,支持DML并發,大幅提升了表的DML性能、insert入庫性能。
商業價值
GBase 8a MPP Cluster是國內首款支持融合數據處理的分布式關系型數據庫集群產品。與國外主流的大數據廠商EMC、HP、IBM等,在金融、電信等領域同臺競技,技術實力相當,形成集群雙活、大規模集群管理、虛擬集群等特有技術,實現部分特性國際領先優勢,已經在人民銀行、銀監會、證監會、農總行、中行、工行、招行、中移動、中聯通、中電信、海關總署、國防某部等幾十個行業數百家用戶形成規模化應用,總計上線超過10000節點,管理數據超過200PB。
在不斷的市場實踐和用戶反饋中,GBase 8a體現出8個價值,可分為兩級:一級價值包括提速、省盤、省錢、成云等核心優勢和直接為客戶帶來的效益,二級價值包括全文、轉非、全數據、可視化等產品的創新功能帶來的價值。另外,作為國產數據庫,GBase 8a與國外同類產品相比,具有非常明顯的本地服務優勢。
一級價值
- 提速:查詢分析類性能提升10-100倍
- 省盤:存儲空間節省50%-90%
- 省錢:軟硬件投資節省50-90%,節電30%-50%
- 成云:支持云計算架構,橫向擴展能力
二級價值
- 全文:集成全文檢索,管理半結構化數據(云文件)
- 轉非:非結構化數據的結構化提取和轉化
- 全數據:統一處理結構化、半結構化和非結構化數據
- 可視化:支持GBase BI可視化數據分析平臺
核心優勢
GBase 8a MPP Cluster具有聯邦構架、海量數據分布式、高效壓縮、高效存儲結構、智能索引、靈活的數據分布、在線高性能擴展、高并發、高可用、高安全性、易維護、高效加載等核心優勢,具體如下:
- 聯邦架構集群部署:基于列存儲的完全并行的MPP + Shared Nothing的聯邦架構,采用多活Coordinator(Master)節點、數據節點的兩級部署結構,避免了單點性能瓶頸和單點故障,對外提供單一的訪問地址,具備各節點的連接數負載均衡的能力。Coordinator節點支持最多部署64個;數據節點支持部署300個以上,單數據節點可支持50TB以上裸數據數據量,且所有節點無共享,具有對等計算能力;
- 海量數據分布式壓縮存儲:集群支持海量數據存儲、查詢,支持15PB以上的結構化數據,采用HASH或RANDOM分布策略進行數據分布式存儲;同時采用先進的壓縮算法,減少存儲數據所需的空間,并相應地提高I/O性能;支持實例級、表級、列級三級壓縮;支持基于列存儲的數據編碼及高效壓縮技術;理想情況下,壓縮比可達1:20以上;
- 高效存儲結構:采用基于列存儲、適合分析優化的存儲結構;采用免維護的智能索引;支持行列混合存儲的存儲結構,有效提高列存數據庫在SELECT * 場景下的查詢性能;
- 智能索引:采用高性能、免維護的粗粒度智能索引技術,索引建立膨脹率不超過百分之一。智能索引包含基于列的統計信息,在數據檢索定位時可被直接使用,有效過濾數據,大幅降低數據庫磁盤I/O,大幅提高海量數據的查詢性能;
- 靈活的數據分布:用戶可以按照業務場景的需求,自定義數據分布策略,從而在性能、可靠性和靈活性間獲得最佳匹配。數據分布策略包括HASH分布和RANDOM分布;
- 在線高性能擴展:支持集群節點的在線擴容和縮容,效率更高,對業務的影響更小;在線擴展性能大于20TB/小時;
- 高并發:讀寫不互斥,支持數據的邊加載邊查詢,3節點集群并發能力大于1000;
- 數據高可用:通過冗余機制來保證集群的高可用特性,互備分片間可實現數據自動同步。數據通過副本提供冗余保護,數據的副本機制支持1或2個數據副本,支持用戶自定義的數據副本分布方式;自動故障探測和管理,自動同步元數據和業務數據,副本故障不影響集群的可用性,支持故障的自動恢復,無需人工干預;
- 完善的資源管理:通過資源池及資源使用計劃的靈活配置,能夠實現不同數據庫用戶的資源隔離,支持對 CPU、內存、磁盤空間、磁盤 IO、并發任務數等關鍵資源和指標進行管控,能夠提供完善的多租戶能力。
- 主備集群高可用:集群支持主備集群高可用模式;支持數據全量、增量同步;支持主備同步回滾機制;支持主備同步錯誤恢復機制;支持同城災備;
- 安全性:提供完善的用戶、角色、權限控制策略,提高數據庫集群的安全性;支持詳盡的審計日志,可配置靈活的審計策略,記錄數據庫中與數據庫操作相關的所有日志,也可以通過圖形化的監視工具實現審計管理;支持透明的數據加密:支持數據存儲加密,支持數據庫密碼加密,支持數據加密壓縮;支持相關加密函數,如AES_ENCRYPT()、ENCRYPT()、MD5()、SHA1()、SHA()等;支持庫內數據脫敏;支持Kerberos認證方式訪問集群和外部數據源;
- 易維護:提供圖形化管理及監控工具,以簡化管理員對數據庫的管理工作;
- 數據加載高效性:具備數據庫并行加載能力,加載速度隨節點增加線性增加,基于策略的數據加載模式,集群整體加載速度大于30TB/h;
- 自適應負載:支持通過自適應負載特性允許用戶執行任意并發數量的作業,數據庫系統根據負載情況,自動決定可允許執行作業的數量,實現參數免調優;
- Hadoop備份/恢復:支持與Hadoop之間進行數據備份/恢復,將庫內數據備份到Hadoop中,或將Hadoop內的數據文件恢復到庫內;Hadoop備份/恢復性能大于100TB/h;
- 標準化:支持SQL 92、SQL 99、SQL 2003 ANSI/ISO 標準,支持ODBC、JDBC、ADO.NET、OLEDB等接口規范;支持C API、Python API、TCL API等接口;支持SQL 2003 OLAP函數。
技術特性
南大通用自主研發的GBase 8a MPP Cluster是大數據時代成熟的分析型 MPP 數據庫。具有聯邦構架、海量數據分布式、高效壓縮、高效存儲結構、智能索引、靈活的數據分布、在線高性能擴展、高并發、高可用、高安全性、易維護、高效加載等核心優勢,具體如下:
- 適配平臺:支持金蝶、東方通等主流中間件;支持曙光、浪潮、華三、長城、聯想等主流國產服務器;支持海光、鯤鵬、飛騰、申威、龍芯、兆芯等主流的國產處理器;支持中標麒麟、銀河麒麟、中科方德、統信等主流的國產操作系統。
- 編碼格式:支持多種編碼格式,如UTF-8、UTF8-MB4、GBK 、GB18030、Unicode編碼格式,支持多語種。
- 海量數據高效存儲:單個集群可處理15PB以上的結構化數據,采用HASH或RANDOM分布策略進行數據分布式存儲;單數據節點可處理50TB以上裸數據數據量,且所有節點無共享,具有對等計算能力;同時單表支持247(萬億級)行級數據量。
- 大規模并行計算:針對數據加載和數據查詢實現了自動高效的并行處理技術,充分利用SMP多核CPU資源并行處理海量數據。利用單節點并行技術,結合MPP集群跨節點并行,對算子進行分布式并行計算處理,可實現數據查詢分析的超大規模分布式并行處理和多數據源并行加載。
- 數據高可用:通過冗余機制來保證集群的高可用特性,互備分片間可實現數據自動同步。體現了集群環境中節點內及跨節點的并行處理能力。
- Hash索引:利用Hash索引提高等值查詢的定位效率,針對集群內單表精確查詢可實現秒級查詢響應。
- 智能索引:采用高性能、免維護的粗粒度智能索引技術,索引建立膨脹率不超過百分之一。智能索引包含基于列的統計信息,在數據檢索定位時可被直接使用,有效過濾數據,大幅降低數據庫磁盤I/O,大幅提高海量數據的查詢性能;在億級數據規模下,可達到集群單節點單表基于時間列精確查詢秒級響應能力。
- 備份恢復管理:提供專用的備份恢復工具,支持物理備份恢復(完全、增量、差異)和邏輯備份恢復(實例級、用戶級、表級),方便用戶在不同應用場景下自主選擇備份恢復策略。
- 數據加密:具備透明的數據加密功能,數據加密實現表級或者列級不同粒度的加密要求,支持數據存儲加密,支持數據庫密碼加密,支持數據加密壓縮;支持相關加密函數,如AES_ENCRYPT()、ENCRYPT()、MD5()、SHA1()、SHA()等;支持備份軟件進行備份文件加密。
- 核心進程級別高可用技術:GNode,GCluster,GCware 等核心進程被實時監控,出故障后可及時恢復。具備完善的數據庫物理恢復功能,支持系統故障恢復、完全介質故障恢復、網絡故障恢復、基于表空間/文件組的介質故障的數據庫物理恢復功能;具有完全恢復模式和指定時間點恢復模式,可將數據恢復到崩潰時間點數據或指定時間點數據。
適用場景
GBase 8a是面向大數據分析類應用領域的一款高性能國產新型數據庫產品,用于滿足數據密集型行業日益增大的數據查詢、數據統計、數據分析、數據挖掘和數據備份等需求,可用做數據倉庫系統、BI系統和決策支持系統的承載數據庫。