山東移動混搭架構大數據平臺改造項目
山東移動混搭架構大數據平臺改造項目
1 項目背景
隨著中國移動各項業務的不斷開展和深入,經營分析系統和大數據專題分析平臺的建設將圍繞經營決策工作提供更加全面,深入,高效的數據展開,在這一背景下運營商企業不斷推進B域、O域、M域的數據融合,傳統經分系統和大數據平臺也隨之需要承載更大的數據量和業務量。
此項目就是針對日益加大的山東移動的經分數據壓力和各類專題分析場景的壓力,實施了基于X86 PC Server的大數據平臺云化改造項目,通過基于Hadoop的ETL平臺和基于MPP數據倉庫平臺的混搭融合,順利地支撐起山東移動大數據平臺歷史海量數據的存儲和各類大數據專題分析處理的需求。
2 需求分析
(1) 數據規模大并且增長快速
活躍用戶7200萬,系統需要采集流量分析相關的數據。日均數據量超過2.1T;
數據總規模增長迅速,正向PB級邁進;
作為未來趨勢,系統計算處理能力及存儲能力還面臨不斷擴展的需求。
(2) 現有系統響應提速
系統的并發和負荷較大,急需提高在高度并發條件下的響應能力;
提高對包括用戶標簽等的寬表間的結合計算能力;
縮短從源數據抽取到數據報表層生成的數據生產時間。
(3) 數據高可用性需求
對于包括日處理,月處理,經分,報表,集市處理的各類經分處理,由于系統故障而發生的延遲不得超過1個工作日;
對于基于X86 PC Server的平臺架構,系統需要具備高度的容錯和自律恢復能力。
3 解決方案
整個系統架構采用基于Hadoop ETL平臺與MPP經分主庫的混搭結構,處理和存儲來自/B/O/M域的跨域數據。
本項目的MPP集群環境根據功能需要分為三部分,分別為26個節點的“原經分庫”和72個節點的“新經分庫”和40個節點的“大數據平臺”。先在Hadoop ETL平臺進行數據的結構化、清洗,數據的輕度匯總等;之后再通過GBase 8a MPP Cluster的數據分發工具將Hadoop ETL輸出的數據加載至MPP分布式數據庫;作為經分系統的數據基礎平臺,GBase 8a MPP Cluster處理從數據層到共享層之間數據加工和各層數據之間的轉換;最終經分主庫內的高度匯總結果導入至Oracle傳統庫,經由傳統庫將數據呈現到現有的報表和圖形化應用界面上。
4 價值體現
實現深度精細化業務分析:高效的數據分析能力幫助客戶應對復雜性強、效率及實時性要求高的場景,有效管理海量數據,實現對各類數據的多維深入分析,準確挖掘數據價值,幫助客戶實現交往圈和重入網識別、WLAN準實時營銷、CI自助分析等主題應用;
混搭架構支撐海量數據:通過分布式計算和存儲以及Hadoop + MPP的混搭結構有效支撐海量數據;
低投高效:GBase 8a MPP Cluster運行于低成本X86 PC Server,新系統性能與原系統相當(執行時間都約為10小時),但新系統整體成本降為原來的1/10。