男生插女生下面的视频_麻豆视频福利_国产视频不卡在线_黑人巨大精品欧美一区二区区

GBase新聞

專注于數據庫軟件產品和服務,致力于成為用戶最信賴的數據庫產品供應商

GBASE觀察:擴展分析型數據庫

發布時間:2022-06-22

一、多模態數據庫

隨著大數據應用的發展,企業需要處理的數據量爆炸式增長,同時面臨數據的結構也越來越靈活多樣。傳統基于關系型理論構建起來的數據庫管理系統遭遇到了巨大挑戰。為了滿足企業發展需求,企業不同業務IT系統需要用不同類型數據庫來支撐。以下示意了不同類型數據庫及其適用場景。

圖片1.png

不同應用類型采用不同數據庫可以有針對性提供數據支持,但數據庫維護的難度較大且數據交換的復雜。為此,多模態數據庫(multi-model database)受到了高度關注,所謂多模態數據庫就是能夠管理具有不同模型(如關系模型、樹模型、圖形模型和對象模型)的數據庫系統。多模態數據庫具有多個數據庫引擎,可以同時滿足應用程序對于結構化、半結構化、非結構化數據的統一管理需求。多模態式數據管理使得數據庫能夠進行跨部門、跨業務的數據統一管理,實現多業務數據融合,支撐多樣化的應用服務。

目前,國內外已經有多模態數據庫產品,其中,ArangoDB,是比較有名的多模態數據庫。在ArangoDB數據庫中,數據可以存儲為文檔、鍵/值對或圖形。使用單一的聲明性查詢語言,可以訪問任何或所有數據。此外,可以在單個查詢中組合不同的模型。而且,由于其多模態型風格,人們可以制作精益應用程序,可以使用多種數據模型中的任何一種或全部進行水平擴展。

雖然多模態數據塊庫能夠統一支撐多類型業務應用,但是,多模態數據庫面對的難點很多,由于不同數據庫引擎在響應延時、計算存儲、操作語言的語義語法等都差異很大,不同引擎集成后,原數據庫的性能都難以充分發揮,整體性能受到較大約束。俗話說的好,讓專業的人做專業的事,同樣,讓專業的數據庫支持專業的業務應用是有其合理性的。通用的數據庫雖然有能力支撐全面業務,但在具體細分業務領域,通用的數據庫的支持能力并不能夠達到專業數據庫的支持能力,數據庫整體性能不佳。

二、HTAP混合事務與分析數據庫

相對多模態數據庫,混合事務與分析數據庫考慮的是關系型事務型數據庫與關系型分析型兩種類型混合的數據庫。HTAP可以解決大型實時應用的同時支持對大數據的分析挖掘。HTAP通常可以用兩套系統來組合來支持OLTP和OLAP,也可以用一套系統同時支持OLTP和OLAP。前者需要用戶的應用程序自己來協調AP和TP系統的使用,數據在兩個系統之間是通過ETL方式同步。后者基于一站式架構同時處理事務請求與查詢分析請求的技術,不僅消除了從關系型事務數據庫到分析型數據庫的數據抽取、轉換、和加載過程,還支持實時地分析最新事務數據。合理的HTAP數據庫不僅能夠同時支撐事務運行和數據分析,避免在傳統架構中,在線與離線數據庫之間大量的數據交互。

以下是一種HTAP系統架構示意圖:

SQL解釋-01.jpg

HTAP雖然同時具備OLTP和OLAP的重要特點,但目前HTAP還面臨一些問題,有待進一步發展。

其主要問題有:

1.大多數HTAP已經分別支持了AP請求和TP請求的處理,但沒有系統支持在TP中執行AP的場景;

2.大多數系統需要組合各種解決方案來達到HTAP場景的需求;

3.為了加速TP的更新和點查,HTAP將索引全部放在了內存中,但是對于更大規模數據的場景,索引全部在內存中會導致TP系統變慢;

4.為AP場景設計的存儲引擎,通常使用對象存儲或者共享文件系統來存儲數據。這些存儲格式主要是為scan場景進行優化,無法提供高效的點查和更新能力。

雖然HTAP并不能分別達到OLTP與OLAP各自的性能,但通常HTAP面對的OLTP與OLAP具有很多共性,OLTP和OLAP兩者都是關系數據庫,都支持標準SQL語言,而且數據庫表結構沒有什么區別。所以,數據庫整體性能可以得到有效優化,從而HTAP在相當程度上可以發揮OLTP和OLAP的各自優點,并簡化系統維護成本。

三、擴展分析型數據庫

HTAP數據庫的OLTP與OLAP面對的數據庫有很大共性,從而,相對多模態數據庫,HTAP不僅滿足特定應用需求,同時OLTP和OLAP的性能損失較少。HTAP是從關系數據庫的維度整合兩種數據庫類型,同樣,從數據分析維度上,分析型數據庫(OLAP)與圖數據庫(RDF)也是一種互補的組合,可以滿足更高的數據分析業務需求。OLAP與RDF數據庫也有很多共性,比如,兩者都是面向數據分析,面對的數據量都很大,而且各自的分析能力可以互補,兩者結合,可以提供更加豐富、高效的數據挖掘。在此,我們把OLAP分析數據庫分析處理與RDF圖數據庫的分析處理的整合稱為擴展分析型數據庫。

我們知道,大數據分析挖掘要依靠OLAP關系數據庫來支撐,多年來,基于OLAP數據庫的數據倉庫技術為各行各業數據分析挖掘提供了極其重要的支撐。然而,由于OLAP關系數據庫是擅長行與列數據的計算與存儲,但在遍歷關系網絡并抽取信息的能力比較弱,關系型數據庫在數據規模龐大時很難做多層關聯關系分析,其關聯操作往往因為消耗過長時間而失敗,而圖數據庫正好在關系庫正好彌補了關系數據庫這個弱點,圖數據庫可以很自然的表達現實世界中的實體及其關聯關系,無需耗時耗內存的關聯操作,可以保持常數級時間復雜度,圖數據庫在多級關聯上查詢上相對關系數據庫具有顯著優勢。

為了實現更強大的數據分析處理,可以采用兩種架構實現如下:

圖片3.png

分立架構,通過業務種類判斷,分別由兩個不同類型數據庫根據各自優勢進行分析,兩個系統需要進行同步。一體化架構采用適應關系表分析和關聯分析的引擎,對應用進行統一解釋、統一調度、統一優化,提供一體化數據分析服務。一體化的擴展分析型數據庫的具體結構示意如下:

SQL解釋2-01.jpg

由于OLAP和RDF引擎都可以進行大規模海量數據處理,如此集成的分析型數據庫同時發揮了OLAP和RDF數據分析的優勢,進一步提升數據分析能力。

四、GBASE南大通用擴展分析型數據庫

GBASE南大通用圖數據庫通過研發融合平臺UP及分析型數據庫GBase8a的技術,結合國產化圖數據庫技術,充分利用三種技術優勢,打造擴展型數據分析數據庫平臺,不僅實現了超大規模數據分析的需求,同時在關聯分析上性能取得突破,可以進一步滿足大數據挖掘分析,實現復雜多級關聯的知識圖譜分析。擴展分析型數據庫將在以下應用場景取得更好應用:

金融風控及審計

金融風控分析涉及指標多、數據量大,同時實體關聯層級多且復雜。比如,在審計分析中,客戶對公、對私、對員工及相關的管理,緯度特別多,數量大。傳統數據庫難以支撐,采用擴展分析型數據庫,可以高效地分析出重點客戶上或者員工頻繁會跟他的親屬進行轉賬關系或者有一些深度資金往來數據,這樣可以顯示出非常大的價值。

圖片4.png

石油勘探認知計算平臺

石油勘探的“測井”環節,涉及數據量巨大,同時,地球物理學家需通過對電阻率、自然電位、聲波等綜合信息的研究進行油氣層識別, 在油氣生產領域,采用物聯網技術和機器學習方法,實現了油井工況的定量診斷和遠程實時在線管理。

圖片5.png

通過擴展型數據分析,可以通過海量數據機器學習挖掘發現油氣層規律,同時可以通過知識圖譜,進一步挖掘各種復雜關聯關系,為科學勘探提供依據。

電網潮流計算

電網潮流計算分別用來描述發電機、負荷、線路和變壓器數據,通過擴展分析型數據庫,不僅可以計算存儲電網潮流涉及的海量數據,同時可以通過知識圖譜,迅速更新復雜電網拓撲,發現電網故障路徑,為智能電網故障快速恢復提供技術支撐。

圖片6.png

五、結論

大數據技術與應用的發展,對分析型數據庫提出更高要求,傳統分析型數據庫已經在數據倉庫能力上大顯身手,但在多層次數據關聯上,傳統分析型數據庫能力欠缺,而圖數據庫是為數據關聯分析而生,非常擅長多級數據關聯分析。所以一種擴展分析型數據庫就是整合了傳統分析型數據庫與圖數據庫的優點,極大增強了分析型數據庫的能力,可以更好滿足大數據業務的發展需要。