GBase新聞
GBASE南大通用攜手英特爾發布面向大模型未來的向量數據庫解決方案
“大模型技術的創新與應用擴展了向量數據庫的應用場景,也凸顯了向量數據庫部署的必要性。通過攜手英特爾,我們為用戶提供了軟硬件協同優化的向量數據庫方案,能夠幫助用戶有效應對海量向量數據處理帶來的性能壓力,為大模型時代構建高性能的數據庫基礎設施。”
— 關連坡
南大通用GBase 8a產品經營部總經理
“向量數據庫和多模態數據處理等創新技術意味著,數據庫領域正在發生更多的變革,帶來更高的復雜性,以及對于多元算力的苛刻要求。英特爾正在利用創新的軟硬件技術組合,推進基礎設施的重構及優化,以構建新一代的數據庫解決方案,幫助用戶充分釋放硬件潛力,加速數字化、智能化轉型。”
——唐炯
英特爾(中國)軟件技術合作事業部總經理
人工智能 (AI)、深度學習等技術的發展,催生了向量數據庫的繁榮。通過向量數據庫,用戶能夠像處理結構化數據一樣地高效地處理海量的非結構化數據,賦能檢索、推薦等應用。與此同時,向量數據庫由于涉及到向量數據的索引、檢索、生成,需要大量的矩陣計算,對于數據庫的性能也帶來考驗。
在此背景下,GBASE南大通用推出了基于第五代英特爾?至強?可擴展處理器的向量數據庫系統 (GBase 8a MPP Cluster,GCVD),該方案具備向量數據庫的高維度支持、相似度搜索、支持多個向量字段、快速插入和更新、多模型聯合分析、與大模型結合、易擴展、穩定可靠等特性,并能夠利用內置的英特爾?高級矩陣擴展(英特爾? AMX)加速引擎,提升向量檢索中矩陣計算的性能,實現了超過2倍的數據庫整體性能提升。
向量數據庫是一種專為管理向量數據而設計的數據庫系統,其核心功能是理解和處理高維數據的相似性。通過向量數據庫,用戶能夠更好地對圖片、視頻等非結構化數據進行分析,賦能檢索、內容推薦等應用。而伴隨著大模型等AI技術的崛起,企業對于向量數據庫的需求顯著提升,其作為典型AI系統的重要組成,得到了場景化落地。向量數據庫的關鍵場景包括:
檢索增強生成(RAG)
在向量數據庫中進行相似性搜索,并獲得返回的top-K個與用戶問題最相似的結果。最后,合并返回結果與原始問題,以便大模型給出更準確的回答。
推薦系統
通過使用向量數據庫進行向量相似性搜索,比較和計算用戶向量和產品向量之間的距離,從而召回 Top-K個最相關的結果,為用戶推薦匹配度更高的產品。
多模態檢索
使用向量數據庫可以實現多種不同模態的數據(如文本、視頻、音頻、圖片等)進行聯合相似性搜索。
此外,向量數據庫的發展在推動AI等應用創新的同時,也為數據庫基礎設施帶來了巨大挑戰,這些挑戰包括:
數據庫性能出現瓶頸
由于向量數據規模的快速增長以及對實時性需求的日益凸顯,企業對向量數據庫的處理性能期望也越來越高,但其性能往往受到CPU性能、數據庫架構等方面的嚴重制約。
數據庫總體擁有成本 (TCO) 壓力
為了應對日益增長的數據壓力,企業往往需要在向量數據庫基礎設施建設、運維和實施等領域進行大量投資,帶來了巨大的TCO壓力。
基于第五代英特爾?至強?可擴展處理器的向量數據庫GCVD
南大通用向量數據庫系統GCVD在GBase 8a MPP Cluster架構基礎上實現了向量數據庫的功能,是繼承了集群高可用、高可擴展性、高安全性以及運維管理能力的分布式向量數據庫。GCVD通過存儲數據向量并使用向量的相似度度量,實現高效、準確的數據搜索和分析,適用于各類 AI 驅動的應用場景,包括圖片檢索、視頻分析、自然語言處理、推薦系統、定向廣告、個性化搜索、智能客服、欺詐預防、基因檢測等。
GCVD 架構圖
GCVD 采用存算分離架構,各層均可獨立擴展。整個分布式集群系統能夠同時支持業務智能、報表分析、決策支持等傳統分析業務和圖像處理、推薦系統、自然語言處理、機器學習等向量數據業務,并具備高緯度支持、相似度搜索、多向量字段支持、快速插入及更新、多模型聯合分析、大模型調優、易拓展、性能穩定等特性。
采用第五代英特爾?至強?可擴展處理器提升數據庫性能
第五代英特爾?至強?可擴展處理器
為化解性能瓶頸,GCVD采用了擁有更可靠的性能、更出色的能效的第五代英特爾?至強?可擴展處理器。在實現工作負載顯著每瓦性能增益的同時,提供更高的算力和更快的內存,并完全兼容上一代適配的軟硬件,大幅減少測試和驗證工作。
此外,GCVD充分利用處理器內置的英特爾? AMX加速器加速矩陣計算,高效地處理各類 AI任務所需的大量矩陣乘法運算,提升其在訓練和推理時的工作效能。
英特爾?AMX 架構及GCVD 優化前后的性能
GBASE南大通用與英特爾攜手在三節點集群上,驗證了GCVD在使用英特爾? AMX 優化前后的性能表現。測試數據顯示,使用英特爾? AMX優化后,GCVD的檢索性能提升高達2.44倍。
用戶收益
GBASE南大通用基于第五代英特爾?至強?可擴展處理器的向量數據庫GCVD能夠為用戶帶來如下收益:
加速數據庫運行,為推薦系統、大模型、多模態檢索等應用賦能:有效地化解了高性能向量數據庫的CPU性能瓶頸,結合軟件優化措施,在性能上有優秀的表現,能夠應對海量業務帶來的壓力。
降低 TCO,提升向量數據庫系統的投資回報率:支持用戶以更低的服務器規模實現目標性能,這有助于降低相應的服務器擴展、能耗、數據中心空間等成本,提升投資回報率。
未來展望
大模型等AI技術的應用將驅動著向量數據庫的不斷落地、壯大,也凸顯了化解性能瓶頸的重要性。GBASE南大通用攜手英特爾為用戶提供了高性能的向量數據庫方案,能夠幫助用戶在保護基礎設施投資的同時,更好地利用向量數據庫在處理高維數據方面的優勢,拓展大模型等新型業務場景。面向未來,雙方將進一步深化合作,探索更多軟硬協同的聯合解決方案,為企業用戶的數字化轉型提供支持。