2021年11月底工信部印發《“十四五”軟體和資訊科技服務業發展規劃》,明確提出“突破大規模並行圖資料處理關鍵技術”,推動高效能資料庫在金融、電信、能源、製造等重點行業關鍵業務系統應用。圖資料庫作為以圖論為設計原理的資料庫管理系統,將現實世界的實體和實體關係抽象表達為頂點和邊,擅長海量圖資料的高效儲存、查詢、計算、分析,能有效解決傳統資料庫技術無法解決的大資料關聯難題,在金融風險、精準零售、物流最佳化、能源排程、生物製藥、智慧交通、疫情防控等多種新興領域有巨大的應用價值。其解決了傳統技術關聯查詢效率低、成本高的問題,具有豐富、高效和敏捷的資料處理能力。而伴隨全球數字化競賽日趨白熱化,這將直接影響企業數字化、智慧化程序。
在此背景下,如何建立高效能的圖計算理論及分散式儲存技術,是一個兼具重要性和挑戰性、並亟待解決的重要議題。基於中山大學牽頭的廣東省重點領域研發計劃“軟體、晶片與計算”重大專項專案“軟體定義的圖計算關鍵技術”,中山大學團隊聯合創鄰科技團隊依託國家超級計算廣州中心環境,完成全自主研發的國產高效能圖資料庫Galaxybase的安裝部署、萬億規模超級大圖資料的匯入,實現實時大圖資料增刪改查, 並完成多跳查詢、模式挖掘等典型圖查詢、計算操作。
基於超算叢集環境,Galaxybase圖資料庫構建了一套基於多級最優圖分片理論、動態任務排程模式及節點間混合通訊機制的分散式並行圖處理體系,透過提供了一個高效能、可擴充套件、高可靠的圖處理平臺,支撐萬億節點大圖的分散式儲存、實時線上查詢。在自研資料生成器所模擬的萬億級真實金融交易場景資料集上(包含50億條賬戶資訊及5萬億條帶屬性的交易資訊,涵蓋了最小為10 到最大超過1000萬出入度的超級節點),將賬號、資金、交易資訊以交易網路的形式組織在一起,高效實現了資金流向查詢、資金環路以及嫌疑賬戶間的最短關聯路徑查詢等深度圖查詢及圖計算,其中,透過交易時間進行過濾的六度的深鏈查詢平均耗時僅6.7秒。本專案僅用50臺機器叢集實現了當前全球商業圖資料庫支援的最大規模圖資料處理,打破了美國頭部圖技術廠商於2021年6月用1000臺機器叢集創造的1.2萬億規模大圖處理的世界記錄。