sponsored links

「巨杉資料庫」陳元熹:資料湖 Data Lake釋放全量資料價值

2021年,分散式雲成為雲計算領域關注的熱點。經過一年時間的探索與沉澱,分散式雲開始從理論走向實踐,諸多雲計算頭部企業夯實分散式基礎設施建設、最佳化分散式資源排程、開發分散式應用,為構建分散式雲打下了堅實的基礎。

12月15日,以“引領分散式雲變革 助力灣區數字經濟”為主題的全球分散式雲大會在深圳隆重召開,本屆大會由全球分散式雲聯盟、深圳科技交流服務中心、深圳市通訊學會、眾視Tech聯合主辦。組委會攜手阿里雲、騰訊雲、Google Cloud、華為雲、螞蟻集團、浪潮雲、金山雲等海內外頂尖雲計算團隊和分散式雲先鋒企業,為粵港澳大灣區數字經濟發展注入分散式雲動力,更將中國分散式雲計算發展推上全新高度!

在16日上午舉辦的分散式資料論壇上,巨杉資料庫 首席架構師&研發副總裁 陳元熹發表了題為《資料湖 Data Lake釋放全量資料價值》的精彩演講。

「巨杉資料庫」陳元熹:資料湖 Data Lake釋放全量資料價值

為何需要資料湖

數字化轉型過程就是資料充分挖掘應用的過程,在這一程序中,為什麼需要資料湖呢?首先要從傳統資料分析模型的弊端說起,傳統資料分析中,資料是透過一條的模式,從核心資料庫下移到資料倉庫中,在資料倉庫中進行報表分析以及演示,這一過程當存在幾大侷限性。

第一,當資料下移之後,無法對資料進行有效的聯機快速訪問,通常由於資料倉庫的併發模型所控制。

第二,由於整個過程全部是結構化的單一型資料模型,流程當中無法處理非結構化資料以及半結構化資料。

第三,由於資料正規化模型轉換是非常長的開發週期,需要非常多的業界經驗和專家經驗,週期長、開發成本高。

新的資料生態對資料流程的要求,首先是業務向前推進。從傳統的T+1模型轉換為實時處理,這種流式的模型帶來了對傳統統計分析型業務模型轉換成向更前端進行前瞻性預測分析型的模型,能夠達到實時資料分析共享的業務需求,同時由於結構化資料逐漸向多模模型轉變,結構化、半結構化、非結構化的模型同時在業務中應用將成為越來越廣泛的需求。

資料湖能夠天然容納結構化、半結構化以及非結構化的資料;區別於傳統模型,資料湖是一種全量資料,而不是最終資料,所以能夠容納資料的原始模式以及各種資料型別。上述特性帶來的第一個好處就是保證性,業務層面講能夠掌握資料的來龍去脈,靈活使用原始資料,避免ETL過程中的失真,導致只能使用轉換之後的資料。這也是建立在資料建模的基礎上,而越來越多的業務需要原始資料做統一模型之外的資料探勘,包括機器學習。

資料湖模式可以實現高併發、高可用以及高拓展的能力,突破了傳統資料倉庫當中資料容量的限制,不光實現了傳統的資料倉庫的能力,還能提供資料集市以及再建分析的能力。

傳統的資料倉庫是一種無法理解的資料模型,沒有高階的長期的經驗是無法做到資料建模的,同時它還是一種架構後正規化化抽象過的資料,需要資料專家進行資料建模應用,且最大的弊端是形態單一。

資料湖提供了多模資料格式,保留了資料的真實性、原始性,方便各種從業人員進行靈活的、實時的資料分析。

資料湖中非結構化資料管理的一體化融合

傳統的模型中,業務引入多模的資料處理,通常是煙囪型,一套資料庫處理一套資料模型,有傳統的RDBMS處理結構化的資料,有大資料模型處理半結構化的資料,而非結構化的模型通常由NAS儲存或物件儲存處理。如此帶來的弊端是,各個業務模型、各條資料線都是獨立的、分散的,無法實現統一的資料使用以及統一的資料運維管理,無論對業務、應用開發人員還是運維人員,都帶來了極大的挑戰。

對於非結構化的資料,包括各類影音影片影象,是透過檔案或物件的模式引入到資料庫當中,巨杉資料庫是天然的多模資料庫,所以在資料入庫的過程中可以透過AI、機器學習以及科學計算的方式給各種資料打標籤,生成半結構化或者是結構化的標籤模型,整個過程非常靈活。這一過程中,得到就是非結構化資料,天生沒有任何的業務模型,需要不斷進行探索,所以標籤通常也不是結構化的標籤,更多地使用半結構化的方式來儲存標籤。由於業務變化,標籤也會一直處於變化中。這種半結構化的資料通常來源是移動業務、IoT,所以天然儲存在巨杉資料庫當中。

這種半結構化資料業務可以透過共性抽取來找到規律或格式,透過這種形式產生的可能就是結構化的資料。所以在整個流程當中以及原生的結構化資料透過聯機、透過直接的業務線下來的資料,直接接入SQL包。整個流程從非結構化到半結構化到結構化資料有機結合在一起,儲存在一套巨杉資料庫當中,同時資料進入後,產生的半結構化和結構化的資料和原生的半結構化資料或者非結構化資料是一體的,可以在一個事務當中進行處理。這是巨杉資料庫從業務的角度如何統一融合管理結構化、半結構化、非結構化的資料。

「巨杉資料庫」陳元熹:資料湖 Data Lake釋放全量資料價值

傳統的模型通常有集中的NAS儲存或者是物件儲存來存放非結構化資料,打出的標籤通常都是應用層面自行建立的標籤,不是天然原生,所以必須放在另外一套關係型資料庫當中,不管是標籤資料還是非結構化資料產生的資料,有可能存放在原資料庫中,也可以存放在多套不同的關係型資料庫中。如果要求不高,問題並不明顯,但是隨著業務線的引進,很多高要求的企業對這種機房的管理運營要求越來越高主備機房資料同步、兩地三中心場景中帶來很大的困擾;對於運維團隊,必須獨立對物件儲存、NAS儲存進行一套災備機制,同時要管理一套原資料關係型資料庫的災備機制,每一套資料都為運維團隊帶來壓力和挑戰。

巨杉資料庫透過多副本實現強一致性,保證高併發的物件寫入過程中,資料標籤、原資料是同時透過副本方式聯同它的物件一起進入主備中心,主備中心支援進行對外業務。

「巨杉資料庫」陳元熹:資料湖 Data Lake釋放全量資料價值

在實踐中,民生銀行基於巨杉資料庫實現了非結構化的資料管理,這一案例是在影像管理中透過同城以及異地容災來保證替換NAS儲存,使用巨杉資料庫統一管理非結構化資料以及結構化資料。目前已經接入的系統超過100套,影像總容量600TB,日增量超過300GB。

資料湖與資料倉庫的有機融合

金融業的業務種類繁多,不同業務系統當中可能用到主機Oracle。非常典型的場景就是在對外客的業務系統對事務非常具備敏感性,有強一致的要求,但由於各種業務線沒有打通,資料相對獨立,各個業務線都是煙囪型的模型。

對核心系統的資料分析過程中,資料可能流向大資料探勘平臺,也有可能流向數倉平臺進行統計報表分析。這套系統中,業務特性是事務不敏感,很多數倉產品甚至沒有事務支援能力,給使用者呈現就是失真之後抽取轉換的資料。這套系統從業務線角度來說,併發能力非常低,無法對客直接資料訪問。

隨著業務演進,給架構帶來了新的需求,傳統的T+1的方式不再適合業務,各條業務線都剔除了T+1的方式。增加對客和對公業務也提上了現有平臺上,即使是下移後的資料,也要對外實現高併發的訪問,因為資料層積帶來不了更多的價值。

首先,巨杉資料庫本身就是一種分散式資料庫,能夠天生提供高併發的訪問,儘管不及核心資料庫的強一致併發訪問,但也是毫秒級提供對客併發。

巨杉資料庫提供結構化和非結構化的資料融合一致管理,下移資料無論從哪條資料線進入都可以統一存放巨杉資料湖裡。

資料進入後,巨杉提供Hadoop,不需要把資料轉換之後再提供對外的分析能力,可以直接在資料庫實現分析型資料訪問。同時巨杉資料庫是支援多模型的資料庫,支援多種資料引擎,業務可以用不同的資料模型,例如以MySQL的模型訪問全量裸資料。另一個優勢,分散式資料庫模型天然可以實現邊界資料拓展,巨杉資料庫是計算儲存分離的模型,如果資料增長,可以單純對資料進行橫向擴張。

在某個股份制銀行中,巨杉資料庫單機群生產應用環境已經容納超過120個業務系統,單機群的物理機節點數在銀行裡面超過170臺,支撐資料量超過1.2萬億條。

在另一個全國規模的保險公司中,巨杉資料庫一個單叢集同時支撐6個省超過180條業務線,實現物理機超過200個,業務資料超1萬億條。

陳元熹總結說,巨杉資料庫的湖倉一體為業務帶來優勢主要有以下幾點:

1 實現高併發訪問,返貨資料;

2 從資產檢視角度打通各個業務線的資料,真正實現事務的共享、控制;

3 海量歷史資料,以前銀行查詢歷史資料只能看到3個月到半年的資料,基於巨杉資料庫海量儲存,可以支援看到5年甚至更久遠的歷史資料。資產和客戶成長體系基於業務線實現打通,給客戶帶來直觀的價值。

關於巨杉資料庫

巨杉資料庫從2011年開始投入分散式研發,至今已走入第十個年頭,整體服務金融銀行客戶超過100家,擁有單叢集萬億級的資料規模部署在實際生產運營中。

在生產業務中,巨杉也經歷了長達7年的實際生產業務考驗,研發團隊分佈在海內外各地,廣州南沙是研發總部,在北美有實驗室,在北京、上海、武漢、西安等地有分公司。

團隊建設主要分為兩塊,一塊是計算團隊,一塊是儲存團隊,計算團隊成員計算來自於前IBM、DB2的北美實驗室,儲存團隊來自於華為2012年實驗室的分散式儲存團隊。

巨杉資料庫的演變從最初的原生分散式架構核心開始,逐漸向多模資料湖的轉換,5年前開始實現湖倉一體的融合。

巨杉資料庫起步非常早,Databrick於去年正式成立的,早在2013年巨杉就實現了第一個商業版本釋出,巨杉的分散式協議甚至早於Raft協議。

生產和時間是檢驗產品的試金石,巨杉資料庫不斷在眾多客戶的幫助下打磨產品,單叢集達到300臺的規模,資料量超過1.2萬億。

巨杉資料庫的客戶集中在金融業,金融行業對資料庫的可靠性、實時性要求是最高的,巨杉選擇挑戰自己,選擇金融行業賽道,打磨單品,不斷在金融行業中持續穩定的執行,保證向其他行業不斷拓展。其中最長線上時間已經超過7年,超過50家銀行持續4年使用巨杉資料庫。

當能夠處理各種不同型別銀行、不同業務,想把產品推廣到其他事務中是相對容易的一件事,巨杉資料庫已經在國企、商企以等其他行業各類場景展開覆蓋,實現海量的聯機交易場景,資料中臺的場景,實時資料和內容管理型的業務。

巨杉資料庫作為各種會員單位積極參與進行行業標準的制定,進行智慧財產權的定義。在國產化的過程中,巨杉資料庫在廣州從2012年開始研發,過程中積極參與了各種對標以及全行業的評測、測試,得到國家認可;在信創過程中實現了上下游對標,獲得了軟硬體協同認證。

巨杉資料庫連續4年獲得了Gartner認可,進入Gartner魔力象限圖,與阿里雲一同成為中國僅有的兩家廠商能夠持續獲得Gartner象限認可的資料庫企業。

巨杉資料庫與產學研各界聯動,構建分散式資料庫實驗室,引入多所高校以及20多家銀行參與共建;積極培養分散式資料庫人才,目前在國內累積培養超過1萬名認證工程師。

演講最後,陳元熹表示,巨杉資料庫將持續深耕資料沃土,提升資料價值,巨杉資料有信心成為資料庫全球的領導者!

分類: 數碼
時間: 2022-01-09

相關文章

推薦5款頂尖黑科技app,每一款都精挑細選

推薦5款頂尖黑科技app,每一款都精挑細選
手機裡的app很多,但是真正好用的有嗎? 這裡就來分享5款頂尖黑科技app,每一款都好用到爆,建議你低調使用. 1.Snapseed 適用:安卓.ios 特點:專業的照片編輯工具 一款備受好評且功能強 ...

剪映、喵影、必剪 三款主流影片剪輯APP實測

剪映、喵影、必剪 三款主流影片剪輯APP實測
在這個短影片興起的時代,影片已經成為了大家分享生活的主要載體.不過面對市面上繁雜的各類影片剪輯APP,很多使用者在進行選擇時往往會出現難以選擇的情況.本文將會從測試各類剪輯APP影片素材處理效能的角度 ...

超1500款備案 山寨金融App未清
移動金融App綜合治理仍在按部就班進行中.據北京商報記者不完全統計,截至10月12日,已有超1500款移動金融App透過備案.整體來看,行業合規程序加速,被通報問題機構及時整改,備案也在有序進行.但目 ...

334款APP被通報!南方航空、滴答出行、喜茶GO等在列→

334款APP被通報!南方航空、滴答出行、喜茶GO等在列→
今日,工信部通報 334款侵害使用者權益APP 被通報的APP中 不乏南方航空.春秋航空. 喜茶GO.車來了等知名APP 被通報的APP中 超八成違規收集個人資訊 據通報,工信部近期組織第三方檢測機構 ...

工信部:8月份新增上架APP數量3萬款,下架應用12萬款
工信部發布,截止到8月末,我國國內市場上監測到的APP數量為282萬款,比1-7月份減少9萬款.其中,本土第三方應用商店APP數量為146萬款,蘋果商店(中國區)APP數量為136萬款.8月份,新增上 ...

智慧攝像頭選它就對了,小白智慧攝像頭N4體驗

智慧攝像頭選它就對了,小白智慧攝像頭N4體驗
導讀: 如今,隨著智慧硬體的持續火爆,智慧攝像頭也受到人們的關注,越來越多的使用者藉助智慧攝像頭看家防盜,同時也可以看護家中老人.小孩.寵物.但是面對市面上種類繁多的攝像頭,對於廣大普通家庭來說究竟哪 ...

華為最新電腦“系統”來了!搶先支援安卓App,微軟這回慢了一步

華為最新電腦“系統”來了!搶先支援安卓App,微軟這回慢了一步
在跟大家介紹華為的"新品"之前,得說一說微軟的windows 11系統.Windows 11系統推出到至今,已經過去了3個多月,這個被稱之為新一代的作業系統帶來的最大的驚喜就是能夠 ...

得物App“先鑑別,後發貨”,讓品質網購激發消費新潛力

得物App“先鑑別,後發貨”,讓品質網購激發消費新潛力
以得物App為代表的新電商正成為新一代年輕人線上購物的首選,帶動這種網購新趨勢的正是年輕人對"高品質"的需求. 2015年,得物誕生於上海,幫助年輕人瞭解.獲取.交流讓他們有幸福感 ...

奢侈品鑑定:《我的砍價女王》吳謹言同款Tory Burch包真假評測

奢侈品鑑定:《我的砍價女王》吳謹言同款Tory Burch包真假評測
Tory Burch是美國的一個時尚品牌,美國大眾都非常喜歡這個牌子的產品.Tory Burch緊跟時尚潮流,美國著名名媛帕麗斯·希爾頓也是其擁護者之一.那麼,Tory Burch包包真假怎麼看呢,跟 ...

奢侈品鑑定:《最酷的世界》周雨彤同款香奈兒包包真偽

奢侈品鑑定:《最酷的世界》周雨彤同款香奈兒包包真偽
大家在生活中應該都聽說過香奈兒這個品牌嗎?今天小編就和大家一起來學習一下吧,究竟香奈兒包包怎麼鑑別真假呢. 1.看鎖釦正面: 正品鎖釦正面為有光澤的做舊五金,logo刻印底槽乾淨,線條寬度適中: 仿品 ...

破解創維智慧電視對安裝第三方APP的限制,隨心所欲安裝喜歡的APP

破解創維智慧電視對安裝第三方APP的限制,隨心所欲安裝喜歡的APP
我想在創維酷開智慧電視安裝一款喜歡的第三方APP,就碰到了"為保障電視安全,請前往官方渠道應用圈安裝".創維酷開智慧電視不能用隨身碟."遠端安裝"等安裝第三方A ...

手機螢幕改行動式螢幕:成本低、清晰度高、 相容性強

手機螢幕改行動式螢幕:成本低、清晰度高、 相容性強
創作立場宣告:本玩法並非原創,如有雷同,絕非巧合,希望大佬們放過大黃(help-) 大家好!我是喜歡玩電子產品的大黃,今天我來給大家介紹一個好玩的東西.走過路過不要錯過- 宣告:玩法非原創,如有雷同, ...

十部最新懸疑探案劇,你期待哪幾部

十部最新懸疑探案劇,你期待哪幾部
探案劇一直深受觀眾喜愛. 記得二千年前香港的武俠片和警匪探案劇盛極一時.深受全國觀眾的喜愛. 其中以<刑事偵緝檔案>為歷來探案劇的巔峰. 該劇情節跌宕起伏,扣人心絃.劇情撲朔迷離,百轉千回 ...

升級2K,外面監控更安全,小白戶外攝像機雲臺版N4體驗

升級2K,外面監控更安全,小白戶外攝像機雲臺版N4體驗
升級2K,外面監控更安全,小白戶外攝像機雲臺版N4體驗 隨著人們生活水平的提高,曾經是隻有樓堂館所才能有的監控裝備,特別是攝像機攝像頭,已經步入了尋常百姓家,可以監控家裡的狀態,實現同家裡的雙向溝通等 ...

9部待播懸疑劇,快看看有你喜歡的嗎?

9部待播懸疑劇,快看看有你喜歡的嗎?
<警察榮譽> 主演:張若昀.白鹿 該劇講述了他們在"警情高發"的平陵市八里河派出所歷經各類案件洗禮,並在老警察的言傳身教下迅速成長,最終成為合格的人民警察的故事. 導演 ...

“用腳鍛鍊”VR健身應用「VRWorkout」釋出全新演示

“用腳鍛鍊”VR健身應用「VRWorkout」釋出全新演示
據UploadVR報道,「VRWorkout」是一款去年在Oculus app Lab平臺釋出的基於手部追蹤的VR健身應用,近日,應用開發者Michael Gschwandtner釋出了一段全新影片, ...

上汽大眾ID.3來了,它看起來更像一臺純電高爾夫

上汽大眾ID.3來了,它看起來更像一臺純電高爾夫
這次ID.3並沒有像ID.4和ID.6那樣採用南北雙車策略,只有上汽大眾一家生產.其實目前小型電動車的市場競爭也非常激烈.像尤拉好貓.比亞迪海豚.元PRO等都有著不錯的產品力.要知道,在中國市場,新能 ...

唐刀700對比追700,有多大優勢?

唐刀700對比追700,有多大優勢?
唐刀700對比追700,有多大優勢? 這是後臺一位車友留言的一個問題."寶刀屠龍,誰與爭鋒""唐刀已出,能奈我何?"奔達活生生的將摩托文化,演繹成了刀光劍影,使 ...

易到用車將為司機提供社保服務,一家倒閉的公司,意欲何為?

易到用車將為司機提供社保服務,一家倒閉的公司,意欲何為?
一說到易到用車,就不得不說其光輝的歷史.早在2010年5月,易到用車就在北京成立,首創透過手機終端,或者登陸網站等方式釋出出行訂單的模式,系統指派司機前去搭載乘客.而易到用車也成為全球最早的網約平臺之 ...

上半年規上網際網路企業完成業務收入6951億元 同比增長25.6%

上半年規上網際網路企業完成業務收入6951億元 同比增長25.6%
2021年上半年網際網路和相關服務業執行情況 上半年,網際網路和相關服務業發展態勢平穩,業務收入增長較快,營業利潤與研發費用保持兩位數增長,細分領域呈現不同增長態勢. 一.總體執行情況 網際網路業務收 ...