GBase新聞
哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心舉辦成果展 共助國產(chǎn)數(shù)據(jù)庫發(fā)展
2021年11月4日,由哈爾濱工業(yè)大學(xué)(深圳)、天津南大通用數(shù)據(jù)技術(shù)股份有限公司和深圳市計(jì)算機(jī)學(xué)會主辦,哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心承辦的“國產(chǎn)數(shù)據(jù)庫產(chǎn)學(xué)研合作交流暨哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心成果展示會”于深圳博林天瑞喜來登酒店成功舉辦。
此次成果展示會對哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心近一年的工作進(jìn)行了總結(jié),報告了研究中心的研究現(xiàn)狀、已經(jīng)取得的研究成果和未來工作期望。同時,會議還邀請了多位來自學(xué)術(shù)界和產(chǎn)業(yè)界的數(shù)據(jù)庫專家進(jìn)行了國產(chǎn)數(shù)據(jù)庫相關(guān)主題的技術(shù)報告。
五十余位專家及代表參加了此次會議,主要嘉賓包括:
哈爾濱工業(yè)大學(xué)(深圳)科技處處長,趙軼杰
國家杰出青年基金獲得者、中國計(jì)算機(jī)學(xué)會“王選獎”獲得者、國家973計(jì)劃項(xiàng)目首席科學(xué)家、哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授,李建中教授
廣東省計(jì)算機(jī)學(xué)會副理事長、深圳計(jì)算機(jī)學(xué)會理事長、哈工大計(jì)算學(xué)部副主任、哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心主任、哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院院長,王軒教授
南大通用數(shù)據(jù)技術(shù)股份有限公司高級副總裁、CTO,趙偉
深圳市計(jì)算機(jī)學(xué)會數(shù)據(jù)科學(xué)與工程專委會主任、深圳大學(xué)特聘教授、深圳計(jì)算科學(xué)研究院研究科學(xué)家,秦建斌教授
深圳市計(jì)算機(jī)學(xué)會數(shù)據(jù)科學(xué)與工程專委會副主任、南方科技大學(xué)計(jì)算機(jī)科學(xué)與工程系助理教授,唐博
中國計(jì)算機(jī)學(xué)會信息存儲專委會委員、中國計(jì)算機(jī)學(xué)會系統(tǒng)軟件專委會委員、哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心委員、哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院副教授,夏文
南大通用數(shù)據(jù)技術(shù)股份有限公司數(shù)據(jù)智能產(chǎn)品經(jīng)營部總經(jīng)理,張紹勇
南大通用數(shù)據(jù)技術(shù)股份有限公司數(shù)據(jù)管理產(chǎn)品經(jīng)營部產(chǎn)品部經(jīng)理,李世輝
南大通用數(shù)據(jù)技術(shù)股份有限公司華南區(qū)技術(shù)經(jīng)理,蘇遠(yuǎn)昌
南大通用數(shù)據(jù)技術(shù)股份有限公司華南區(qū)總經(jīng)理,張玉芝
哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心副主任、南大通用總工辦主任,楊偉偉
哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心副主任、深圳市計(jì)算機(jī)學(xué)會數(shù)據(jù)科學(xué)與工程專委會委員、哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院助理教授,劉洋
哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心委員、哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院助理教授,漆舒漢
會議伊始,哈爾濱工業(yè)大學(xué)(深圳)科技處趙軼杰處長代表學(xué)校領(lǐng)導(dǎo),向校企合作取得的階段性成果表示了誠摯的祝賀。趙軼杰處長提到,哈工大(深圳)今年科研經(jīng)費(fèi)已達(dá)8.2億元,2021年全年預(yù)計(jì)能達(dá)到10億元,學(xué)校繼續(xù)保持著工科領(lǐng)域的產(chǎn)學(xué)研用領(lǐng)先優(yōu)勢。在當(dāng)前的時代背景下,工業(yè)界與學(xué)術(shù)界需要緊密合作。哈工大(深圳)-南大通用聯(lián)合研究中心長期深耕數(shù)據(jù)庫領(lǐng)域,共同致力于打造國產(chǎn)數(shù)據(jù)庫這一國之重器。在雙方的共同努力下,一定會繼續(xù)為校企合作培養(yǎng)英才做出新貢獻(xiàn)。
南大通用CTO趙偉代表公司領(lǐng)導(dǎo),對聯(lián)合研究中心從科研成果到工程化落地的工作給予了極大的肯定。他表示,數(shù)據(jù)庫關(guān)系理論和新數(shù)據(jù)管理技術(shù)離不開學(xué)術(shù)界研究,公司將繼續(xù)支持聯(lián)合研究中心的科研項(xiàng)目推進(jìn)。同時,他也對研究中心的研究成果轉(zhuǎn)化提出了更高要求,希望哈工大(深圳)與南大通用的產(chǎn)學(xué)研用合作能進(jìn)一步助力于基礎(chǔ)信息產(chǎn)業(yè)高質(zhì)量發(fā)展,加快數(shù)據(jù)庫基礎(chǔ)技術(shù)的攻關(guān)。
深圳市計(jì)算機(jī)學(xué)會數(shù)據(jù)科學(xué)與工程專委會主任秦建斌教授代表學(xué)會專委會為本次活動致辭。他對專委會在關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)治理、隱私計(jì)算、AI+DB等方向的研究進(jìn)行了介紹。他表示將繼續(xù)推動加強(qiáng)高校與企業(yè)的合作,加大產(chǎn)學(xué)研用中的人才培養(yǎng),在產(chǎn)學(xué)研用方面為整體產(chǎn)業(yè)做出貢獻(xiàn)。
隨后,國家973計(jì)劃項(xiàng)目首席科學(xué)家、哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院李建中教授做了題為《數(shù)據(jù)可用性的計(jì)算理論與高效算法》的大會主題報告。
在報告中,李建中教授從“數(shù)據(jù)一致性”、“數(shù)據(jù)精確性”、“數(shù)據(jù)完整性”、“數(shù)據(jù)時效性”和“數(shù)據(jù)統(tǒng)一性”這五個度量維度介紹了數(shù)據(jù)可用性的基本概念。李建中教授在報告中提到,數(shù)據(jù)的低可用性會對物理世界帶來了巨大影響。例如:全球財(cái)務(wù)1000強(qiáng)公司中25%以上的關(guān)鍵數(shù)據(jù)存在錯誤;中國某城市的3600多萬條社保記錄中有450萬條記錄存在錯誤。此外,數(shù)據(jù)低可用性也使得采用AI技術(shù)進(jìn)行的數(shù)據(jù)挖掘結(jié)果的可靠性得不到充足的保障。
李建中教授表示,無論具有多么大的數(shù)據(jù),無論大數(shù)據(jù)計(jì)算的理論和技術(shù)多么完美,如果不能確保數(shù)據(jù)可用性,大數(shù)據(jù)就可能產(chǎn)生錯誤結(jié)果,甚至災(zāi)難性結(jié)果。以此為背景,李建中教授進(jìn)一步介紹了數(shù)據(jù)可用性的若干研究問題。其中,重要的研究問題包括:數(shù)據(jù)可用性的表達(dá)機(jī)理、數(shù)據(jù)可用性的判定理論、數(shù)據(jù)錯誤的檢測與修復(fù)、若可用數(shù)據(jù)上的近似計(jì)算、數(shù)據(jù)高質(zhì)量獲取理論和技術(shù)等。
針對上述問題,李建中教授團(tuán)隊(duì)在國際頂級期刊和會議中發(fā)表了學(xué)術(shù)論文數(shù)十篇,構(gòu)建了數(shù)據(jù)可用性管理系統(tǒng),建立了具有數(shù)據(jù)可用性表達(dá)、數(shù)據(jù)可用性判定、數(shù)據(jù)錯誤檢測修復(fù)、弱可用數(shù)據(jù)近似計(jì)算、數(shù)據(jù)高質(zhì)量獲取等功能的原型系統(tǒng)。該系統(tǒng)在中國某城市8億條社保數(shù)據(jù)上進(jìn)行了應(yīng)用,使數(shù)據(jù)準(zhǔn)確率由75%提高到90%,數(shù)據(jù)完整性由71%提升到95%,數(shù)據(jù)一致性由83%提升到100%,數(shù)據(jù)時效由78%提升到87%。未來,李建中教授還會繼續(xù)探索降低問題計(jì)算復(fù)雜性的新方法學(xué),拓展弱可用數(shù)據(jù)的近似計(jì)算理論。
深圳市計(jì)算機(jī)學(xué)會數(shù)據(jù)科學(xué)與工程專委會副主任唐博助理教授做了題為《面向異構(gòu)計(jì)算硬件的大數(shù)據(jù)查詢處理和加速技術(shù)》的主題報告。 報告中,唐博老師結(jié)合新型硬件對數(shù)據(jù)庫系統(tǒng)帶來的挑戰(zhàn)和機(jī)遇,分享了其團(tuán)隊(duì)在數(shù)據(jù)庫系統(tǒng)的可觀察性、查詢優(yōu)化以及硬件感知的執(zhí)行引擎三個方面的研究工作,介紹了系統(tǒng)原型的具體功能和測試效果,最后通過分析現(xiàn)有技術(shù)的不足,展望了架構(gòu)異構(gòu)硬件感知的數(shù)據(jù)管理系統(tǒng)的挑戰(zhàn)和難點(diǎn)。
茶歇過后,哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心委員夏文副教授以《面向GBase日志的高效差量壓縮技術(shù)研究》為主題,進(jìn)行了云數(shù)據(jù)庫研究中心成果匯報。
夏文老師主要介紹了研究中心在數(shù)據(jù)去重壓縮等領(lǐng)域的研究工作基礎(chǔ)和積累,以及針對南大通用日志存儲研究的差量壓縮算法,多項(xiàng)研究成果發(fā)表在數(shù)據(jù)存儲和壓縮領(lǐng)域的國際頂會頂刊,并申請了多項(xiàng)專利。他提到,在2021年暑假期間,研究中心兩名同學(xué)赴天津參與GBase業(yè)務(wù)場景實(shí)測,與相關(guān)技術(shù)人員反復(fù)論證測試,在業(yè)務(wù)場景驗(yàn)證合成成果的差量壓縮算法在GBase邏輯日志壓縮率超過60%,通過減少日志數(shù)據(jù)的寫操作將執(zhí)行和同步用時縮短了約1%。這說明研究中心的差量壓縮算法,在顯著提升壓縮率的同時,并沒有增加日志存儲吞吐和時延方面的開銷,仍維持了GBase日志存儲的高性能業(yè)務(wù)要求,最終實(shí)現(xiàn)了又快又好的存儲GBase海量數(shù)據(jù)的目標(biāo)。
目前該工作作為研究中心的第一階段研究的階段性成果已經(jīng)進(jìn)入GBase工程化版本階段。夏文老師表示,下一階段的工作 ,將圍繞數(shù)據(jù)庫備份場景存在的海量數(shù)據(jù)存儲需求,將研究中心的數(shù)據(jù)去重壓縮成果也用于推動GBase在這一場景的存儲效率提升,實(shí)現(xiàn)更高質(zhì)量的合作共贏。
隨后,南大通用張紹勇總經(jīng)理、李世輝經(jīng)理和蘇遠(yuǎn)昌經(jīng)理也分別就 “GBase 8a MPP的市場地位、產(chǎn)品優(yōu)勢、關(guān)鍵技術(shù)、典型案例”、‘“GBase 8s V8.8護(hù)航核心交易”和“南大通用在分布式事務(wù)型數(shù)據(jù)庫的實(shí)踐”等研究進(jìn)展和成果進(jìn)行了匯報。
分布式分析型數(shù)據(jù)管理系統(tǒng)GBase 8a是面向大數(shù)據(jù)分析類應(yīng)用領(lǐng)域的一款高性能國產(chǎn)新型數(shù)據(jù)庫產(chǎn)品,用于滿足數(shù)據(jù)密集型行業(yè)日益增大的數(shù)據(jù)查詢、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)備份等需求,可用做數(shù)據(jù)倉庫系統(tǒng)、BI系統(tǒng)和決策支持系統(tǒng)的承載數(shù)據(jù)庫。GBase 8a MPP沖上TPC-DS世界榜單,節(jié)點(diǎn)數(shù)量最少,單節(jié)點(diǎn)算力最高,加載性能最優(yōu),更是通過國內(nèi)最大規(guī)模MPP集群測試(4096節(jié)點(diǎn))。打造的中國農(nóng)業(yè)銀行總行大數(shù)據(jù)平臺,榮獲中國人民銀行頒發(fā)的2017年度銀行科技發(fā)展獎一等獎、已部署2000+節(jié)點(diǎn)、管理超過20PB數(shù)據(jù),穩(wěn)定運(yùn)行超過 2000天。
交易型數(shù)據(jù)管理系統(tǒng)GBase 8s是天津南大通用數(shù)據(jù)技術(shù)股份有限公司自主研發(fā)的、成熟穩(wěn)定的企業(yè)級分布式事務(wù)型數(shù)據(jù)庫,擁有自主知識產(chǎn)權(quán),并且具備兩高三低的特性:跨入第三代,守護(hù)每筆交易的高可靠性;兩地三中心,持續(xù)服務(wù)保障的高可用性;自動遷移工具,PL/SQL直接使用可降低遷移成本;一體機(jī)模式,統(tǒng)一運(yùn)管平臺降低運(yùn)維成本;全棧國產(chǎn)生態(tài),打破國外壟斷降低采購成本。該產(chǎn)品打造的某地方性商業(yè)銀行核心系統(tǒng):備份耗時由原來2小時以上縮短到20分鐘以內(nèi);解決恢復(fù)表的不可用性,解決大表無法插入數(shù)據(jù);實(shí)現(xiàn)數(shù)據(jù)分離存儲,大表數(shù)據(jù)分片存儲于不同空間,提升性能;實(shí)現(xiàn)配置優(yōu)化,表鎖粒度、索引,配置參數(shù)等優(yōu)化,提高并發(fā)性能。
分布式交易型數(shù)據(jù)管理系統(tǒng)GBase 8c是一款 shared nothing架構(gòu)的分布式交易型數(shù)據(jù)庫集群,具備高性能、高可用、彈性伸縮、高安全性等特性,可以部署在物理機(jī)、虛擬機(jī)、容器、私有云和公有云,為關(guān)鍵行業(yè)核心系統(tǒng)、互聯(lián)網(wǎng)業(yè)務(wù)系統(tǒng)和政企業(yè)務(wù)系統(tǒng)提供安全、穩(wěn)定、可靠的數(shù)據(jù)存儲和管理服務(wù)。目前已滿分通過信通院分布式事務(wù)型數(shù)據(jù)庫評測。
在各位專家的成果展示和技術(shù)匯報順利結(jié)束后,深圳計(jì)算機(jī)學(xué)會理事長、哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心主任、哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院院長王軒教授為會議做了總結(jié)致辭。王軒教授表示,在云數(shù)據(jù)庫研究中心成立的一年多的時間中,校企雙方發(fā)揮各自的長處,充分利用研究中心作為雙方合作的窗口、新技術(shù)科研成果的中試基地和產(chǎn)業(yè)化基地的作用,真正實(shí)現(xiàn)了產(chǎn)、學(xué)、研之間的無縫對接,提高了核心技術(shù)研究和產(chǎn)業(yè)化的高效性。聯(lián)合研究中心應(yīng)專注卡脖子技術(shù)打造國產(chǎn)數(shù)據(jù)庫這一國之重器,繼續(xù)為國家信創(chuàng)基礎(chǔ)產(chǎn)業(yè)做出貢獻(xiàn)。
未來,云數(shù)據(jù)庫研究中心也將持續(xù)堅(jiān)持以哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的科研力量來推動南大數(shù)據(jù)技術(shù)股份有限公司的業(yè)務(wù)發(fā)展;同時以南大通用數(shù)據(jù)技術(shù)股份有限公司的需求為導(dǎo)向,充分利用哈工大的人才與科技優(yōu)勢,南大通用在數(shù)據(jù)庫領(lǐng)域的領(lǐng)先技術(shù)和經(jīng)驗(yàn)優(yōu)勢,支持和推動聯(lián)合研究中心在相關(guān)核心技術(shù)方面的研究和積累,以國產(chǎn)數(shù)據(jù)庫這一國之重器為數(shù)字化時代中國數(shù)據(jù)資產(chǎn)的本質(zhì)安全提供保障,深耕研究,繼續(xù)勇創(chuàng)佳績。
關(guān)于哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心
哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院與天津南大通用數(shù)據(jù)技術(shù)股份有限公司進(jìn)行深度合作,與2020年9月1日成立“哈工大(深圳)-南大通用云數(shù)據(jù)庫研究中心”。該中心有助于促進(jìn)南大通用與哈爾濱工業(yè)大學(xué)(深圳)在互利互惠、共同發(fā)展基礎(chǔ)上的合作伙伴關(guān)系,實(shí)現(xiàn)產(chǎn)、學(xué)、研緊密結(jié)合。同時,雙方在云數(shù)據(jù)庫技術(shù)等領(lǐng)域優(yōu)先開展技術(shù)戰(zhàn)略咨詢、技術(shù)創(chuàng)新、新產(chǎn)品研制、人才培養(yǎng)等方面的長期合作。此外,還將提煉實(shí)施技術(shù)項(xiàng)目的合作開發(fā),實(shí)現(xiàn)項(xiàng)目技術(shù)產(chǎn)業(yè)化。
研究中心第一階段對數(shù)據(jù)庫參數(shù)智能優(yōu)化技術(shù)、數(shù)據(jù)庫列存數(shù)據(jù)壓縮方法、數(shù)據(jù)庫智能安全審計(jì)技術(shù)等多個課題方向展開研究。
(1) 數(shù)據(jù)庫參數(shù)智能優(yōu)化技術(shù)
參數(shù)優(yōu)化是數(shù)據(jù)庫優(yōu)化的重要手段,而數(shù)據(jù)庫參數(shù)之多也增加了參數(shù)調(diào)優(yōu)的難度。大數(shù)據(jù)時代下,面對不斷膨脹的數(shù)據(jù)信息、復(fù)雜多樣的應(yīng)用場景、異構(gòu)的硬件架構(gòu)和參差不齊的用戶使用水平,傳統(tǒng)數(shù)據(jù)庫技術(shù)調(diào)參很難適應(yīng)這些新的場景和變化。基于機(jī)器學(xué)習(xí)的智能數(shù)據(jù)庫配置技術(shù)因其較強(qiáng)的學(xué)習(xí)能力,能夠有效提升數(shù)據(jù)庫參數(shù)調(diào)節(jié)的效率。該方向針對數(shù)據(jù)庫參數(shù)智能優(yōu)化技術(shù)進(jìn)行研究,利用人工智能技術(shù)對不同業(yè)務(wù)數(shù)據(jù)庫實(shí)例完成自動配置,同時權(quán)衡性能和成本。
(2) 數(shù)據(jù)庫列存數(shù)據(jù)壓縮方法
在信息技術(shù)高速發(fā)展的海量信息時代,海量數(shù)據(jù)管理技術(shù)已經(jīng)成為社會信息化的迫切任務(wù)。如何有效地存儲和管理海量數(shù)據(jù)并高效地支持海量數(shù)據(jù)上的查詢,對數(shù)據(jù)庫管理系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)。海量數(shù)據(jù)庫最大的特點(diǎn)是存在大量的數(shù)據(jù)冗余,即相同的數(shù)據(jù)在不同的地方多次重復(fù)出現(xiàn)。該方向從南大通用Gbase數(shù)據(jù)庫邏輯日志差量壓縮的角度入手,通過輕量高效的Ddelta差量壓縮算法壓縮日志內(nèi)前后鏡像,節(jié)省大表修改時邏輯日志所占空間。該研究目前已進(jìn)入產(chǎn)品工程化階段,預(yù)計(jì)可節(jié)省40%的日志存儲空間。
(3) 數(shù)據(jù)庫智能安全審計(jì)技術(shù)
數(shù)據(jù)庫作為業(yè)務(wù)平臺信息技術(shù)的核心和基礎(chǔ),承載著越來越多的關(guān)鍵數(shù)據(jù),其安全性也越來越重要。數(shù)據(jù)庫審計(jì)技術(shù)能夠?qū)崟r記錄網(wǎng)絡(luò)上的訪問數(shù)據(jù)庫行為,對數(shù)據(jù)庫操作進(jìn)行細(xì)粒度審計(jì)。除此之外,數(shù)據(jù)庫審計(jì)還能對數(shù)據(jù)庫遭受到的風(fēng)險行為進(jìn)行告警,如:數(shù)據(jù)庫漏洞攻擊、SQL注入攻擊、高危風(fēng)險操作等。該方向針對數(shù)據(jù)庫審計(jì)技術(shù)進(jìn)行研究,通過滿足國家信息安全等級保護(hù)的安全審計(jì)系統(tǒng)抵御來自內(nèi)部人員日益增多的安全威脅,通過智能、全面的數(shù)據(jù)安全方案進(jìn)行漏洞掃描,阻止數(shù)據(jù)丟失,進(jìn)行數(shù)據(jù)隱私保護(hù)。
未來,云數(shù)據(jù)庫研究中心將成為雙方合作的窗口和新技術(shù)科研成果的中試基地和產(chǎn)業(yè)化基地。以哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的科研力量來推動南大數(shù)據(jù)技術(shù)股份有限公司的業(yè)務(wù)發(fā)展;同時以南大通用數(shù)據(jù)技術(shù)股份有限公司的需求為導(dǎo)向,支持和推動云數(shù)據(jù)庫研究中心在相關(guān)核心技術(shù)方面的研究和積累,以國產(chǎn)數(shù)據(jù)庫這一國之重器為數(shù)字化時代中國數(shù)據(jù)資產(chǎn)的本質(zhì)安全提供保障。