sponsored links

網易汪源:資料生產力統一技術目標,開放式流批一體支撐落地

12月25日,由中國計算機學會主辦,CCF大資料專家委員會承辦的2021中國大資料技術大會以線上+線下的方式拉開了帷幕。網易副總裁、網易杭州研究院執行院長、網易數帆總經理汪源受邀出席本次大會並做了主題演講,分享了對綜合性資料生產力方法論的最新思考,網易數帆相應支撐技術體系的特色與落地成果,以及支撐該體系的開放式流批一體架構和核心技術Arctic的實現。

網易汪源:資料生產力統一技術目標,開放式流批一體支撐落地

資料生產力:繼承成果,統一技術發展目標

何謂資料生產力?汪源基於資料技術發展的核心目標給出了兩層定義:狹義上指用於資料整合、清洗、轉換、查詢、視覺化等資料加工處理軟體的生產能力及這些軟體的執行維護能力,廣義上則指使用資料所帶來的組織生產力提升。當然,後者需要前者的支撐。

為什麼要提出這樣的方法論?汪源表示,從上個世紀的關係資料庫、SQL、資料倉庫、OLAP,到近年來的大資料、資料治理、資料中臺,資料分析領域的方法論層出不窮,這些方法論為技術研究和產品開發提供了較好的指導,如資料探勘提出了超越基礎統計的知識發現方法,大資料提出了全體而非抽樣、相關而非因果的思想,促成了從ETL到ELT的轉變。但由於這些方法論誕生於不同歷史背景,天然難以融合形成整體統一的方法論,因而對資料技術的體系化發展造成了困擾。

事實上,於企業組織而言,不管構建何種資料處理技術,提升組織生產力都是其核心目標,這就是資料生產力產生的內因。而實現資料生產力的願景,是實現人人用資料、時時用資料,使得資料分析的能力成為企業差異化的關鍵。在這方面,7-11便利店、SHEIN、名創優品和德邦快遞等行業翹楚已經提供了典型的範例。

網易數帆資料生產力方法論包括了三大要素:DataOps、DataFusion和DataProduct。DataOps重點是實現資料生產的敏捷和高質量,來自於Gartner的定義,本質上是透過軟體工程的CI/CD(持續整合/持續交付)方法融入資料分析產品開發流程,做到資料需求的敏捷交付。DataFusion要實現整個組織資料的統一和共享,破解煙囪式開發模式下的需求響應慢、查詢速度慢等問題。DataProduct(資料產品)最終要實現資料分析系統和業務系統之間的連線,以及資料的智慧化的應用。

汪源強調,綜合性資料生產力方法論三大要素與歷史上的資料分析方法論是一脈相承的,彙集了主流資料分析方法論的核心要素。例如,DataFusion就是資料中臺、資料治理、資料倉庫和大資料等方法論的集大成者。

網易汪源:資料生產力統一技術目標,開放式流批一體支撐落地

網易有數:資料生產力技術體系

基於綜合性資料生產力方法論和願景,網易數帆打造了有數技術體系來促進業務發展。該體系包括資料研發、資料中臺和資料產品三層架構,分別對應DataOps、DataFusion和DataProduct三要素。汪源分別深入介紹了這些技術產生的背景、核心建設思路、有數特色工作和業務應用成果。

網易汪源:資料生產力統一技術目標,開放式流批一體支撐落地

DataOps的實踐,源自缺乏自動化測試工具、測試任務汙染線上資料、上游任務修改影響下游產出和任務釋出缺乏有效管控等現象。基於此,網易數帆構建了一個高質量的資料釋出流水線,從任務開發開始,經過資料測試、配置檢查、Code Review、影響分析等一系列步驟,最後釋出包要經過稽核之後才進入生產釋出環節。

其中網易數帆的特色工作,主要包括資料測試的SQL Sacn,生產/測試隔離,下游影響分析和釋出稽核等。其中SQL Sacn等價於軟體工程的靜態掃描,但體現了SQL核心專業知識,網易數帆支援跨層依賴、全表掃描、固定分割槽等,覆蓋SQL開發常見問題和錯誤,並支援自定義規則擴充套件。

DataFusion的實踐,包括了統一指標管理體系,高複用、規範的資料模型,基於ROI沉澱資料資產和資料服務化等四大著力點。以資料服務化為例,網易數帆透過管理系統支援視覺化配置方式生產API,並以許可權、熔斷、限流等服務治理能力支援API共享,以API編排能力避免煙囪式開發。網易雲音樂透過該系統釋出了176個API支撐28個數據應用,日呼叫量達到1.26億

DataProduct的實踐,意在打破傳統報表模式下資料組織混亂、無法轉化為有效決策、資料到業務鏈路不通等瓶頸,面向業務需求構建一個好用的、能解決問題、指導工作的產品體系。其核心思路,是透過資料門戶、演算法平臺、決策引擎、連線中心等產品,建立從組織資料、發現異常、診斷異常、決策建議到決策執行的鏈路

汪源舉了一個網易嚴選應對庫存週轉高的案例,基於有數資料產品建設的嚴選供應鏈決策系統,包括銷量預測、庫存分析、補貨決策、採購建議等一系列自動功能,並連線到供應商管理、採購、倉配、選品等業務系統,實現的效果,是系統自動採購訂單佔比82%,總體庫存下降43%,庫存週轉天數下降24%

網易汪源:資料生產力統一技術目標,開放式流批一體支撐落地

Arctic表服務:升級開放式流批一體架構

從底層看,流批割裂是有數技術體系建設必須解決的一個核心技術難題。無論對於資料儲存、系統運維、資料/應用開發和資料複用,流批割裂的複雜性都會帶來成本和效率的極大影響。

對此,網易數帆形成了一個基於資料湖的開放式架構,包括五個層面的技術,最底層是檔案系統,實現資料儲存和訪問;第二層是檔案格式,定義檔案與資料之間的關係;第三層是表格式,定義檔案與表之間的邏輯關係;第四層是表服務,最佳化表物理結構,提供讀寫API;最上層以SQL方式來提供統一入口。

“在這個架構裡面,每一層都是開放的技術,我們在做技術方案設計時始終追求與開放性技術的無縫融合,因為這樣才能夠滿足企業客戶的需求。”汪源強調說。

網易數帆近期對該架構的升級,主要包括專門構建了Arctic流批一體表服務取代Hive表服務(計算引擎整合),並引入Apache Iceberg作為流批一體表格式。

網易汪源:資料生產力統一技術目標,開放式流批一體支撐落地

具體而言,Arctic提供實時場景支援和多引擎支援,即支援基於主鍵的更新、流表的實時訂閱、實時維表join,支援Flink、Spark等主流計算引擎支,Presto、Impala等主流分析引擎,並支援多引擎併發讀寫,保障 ACID。

Arctic透過資料寫入、資料讀取和資料整理三個層面的處理來實現這些能力,如實時資料寫入Change,批次資料寫入Base,讀時合併Base和Change。汪源詳細介紹了Arctic Tree資料組織原理,及Compaction、Split、Merge-on-Read等應用。

他表示,無Arctic的索引設計(透過演算法定位資料)、Base和Change多對對靈活對映和動態分割槽控制檔案大小等設計,帶來了寫入快、讀取快、寫放大降低三個技術特點,從而形成了一個高效能的流批一體表服務。

分類: 科學
時間: 2021-12-25

相關文章

看似“渣男”實則靠譜的8位明星,事實證明:以貌取人大錯特錯

看似“渣男”實則靠譜的8位明星,事實證明:以貌取人大錯特錯
看似"渣男"實則靠譜的8位明星,事實證明:以貌取人大錯特錯 丁勇岱 這個男人飾演的影視角色可以說很多都是拋妻棄子背叛家庭的典型,但其實生活中的他卻是個十足的暖男. 和老婆相戀.步入 ...

語文138數學150英語79理綜296,他用事實證明:偏科也能上名校?

語文138數學150英語79理綜296,他用事實證明:偏科也能上名校?
高校錄取時看的是什麼?學生的整體分數.成績優異者被名校錄取,總分差點地只能退而求其次,但偏科就意味著與名校無緣嗎?可能事實並非如此,今年有一名考生用事實證明:英語不及格,也能被名校錄取. 語文138數 ...

票房僅48萬,上映7天被下架,事實證明,李連杰的成功難以複製

票房僅48萬,上映7天被下架,事實證明,李連杰的成功難以複製
1993年,香港電影空前盛況,一年產量達到了驚人的380多部. 也就是說,每天去電影院看一部,一年都看不完. 其中,光是武俠題材的電影就有33部,佔了全年電影產量的近10%. 因此,這一年也被稱為香港 ...

1997年,中央為何要將重慶與四川“分家”?事實證明鄧小平真高明

1997年,中央為何要將重慶與四川“分家”?事實證明鄧小平真高明
現在的重慶與四川在1997年以前還是一家,後來鄧小平經過綜合考慮,將其分為現在的重慶直轄市和四川省,這其中有什麼戰略上的考慮呢?我們今天一探究竟. 鄧小平與重慶的淵源 早在1919年,鄧小平就透過考試 ...

事實證明,明星美貌的天敵不是發福,而是“發腮”啊

事實證明,明星美貌的天敵不是發福,而是“發腮”啊
小夥伴們發現沒有? 有些人到了中年,其實整體還是很瘦,身材保持得也蠻好,但是臉變大變腫了一圈. 其實,這就是發腮. 其實,發腮這個詞最早出現在貓科動物身上,即腮幫向外擴導致面部變寬,下巴逐漸也隨之變寬 ...

45張真實無PS照片,不看不知,用事實證明,動物們真的很可愛

45張真實無PS照片,不看不知,用事實證明,動物們真的很可愛
大天鵝長時間在水上活動,天鵝寶寶(傳說中的醜小鴨)累了的話,就爬到大天鵝背上休息. 串串狗,因為混合了更多的基因,所以更加健康.活潑,同時每隻串串都有自己獨特的個性. 獰貓,剛出生時眼睛是閉著的,同時 ...

事實證明,70後的“晚年”能否安穩,在50歲那年就決定了
原創 關注 01 月過十五光明少,人到中年萬事休. 中年,依舊是每個人都難以邁過的一道坎.在這道坎當中,任何人都需要面臨或大或小的問題.而且,還有無數的風險向人奔襲而來. 如今中年人的主力群體,相信就 ...

事實證明今年蘋果iPhone13Pro確實更受歡迎

事實證明今年蘋果iPhone13Pro確實更受歡迎
對於今年剛剛釋出的iPhone13系列來說,升級幅度可以說是近幾年都比較小的,主要的改變就是劉海縮小了20%,電池容量增加了10%,升級了鏡頭模組,其他方面幾乎和上一代的iPhone12區別不大,因此 ...

盤點高中那些“學霸式”情書,事實證明讀書很有用處,完勝學渣們

盤點高中那些“學霸式”情書,事實證明讀書很有用處,完勝學渣們
許多學生上了高中,成績方面都會出現懸崖式變化,由於正處於青春期,心理和生理都發生微妙變化,所以只要稍微不認真學習,學習成績就會直線下滑. 在高中時期,家長和老師最為擔心的就是學生早戀問題,畢竟高中將會 ...

票房僅81萬,同樣是拍《戰狼》,事實證明,吳京的成功並非偶然

票房僅81萬,同樣是拍《戰狼》,事實證明,吳京的成功並非偶然
<長津湖>的勢不可擋,打破了中國電影11項影史紀錄. 在此背景下,一個人便成為了大眾的焦點--吳京. "200億票房先生",這個殊榮對於他來說,或許不太重要,但是真的來 ...

上古奇書《山海經》:越來越多的事實證明,它是一部記實錄

上古奇書《山海經》:越來越多的事實證明,它是一部記實錄
大家好,我是文史老書蟲. 今天我們聊聊中華上古三大奇書之<山海經>. 提起山海經,大多數人都會立刻聯想到精衛填海.夸父追日.女媧補天等神話故事,因此很多人認為它是一部古代的荒誕神話故事大全 ...

浙江旅遊,路過湖州德清新市古鎮,8道菜把我“困”在原地好幾天

浙江旅遊,路過湖州德清新市古鎮,8道菜把我“困”在原地好幾天
繼續浙江自駕遊,今天的話題是好吃的. 來到湖州市,在德清縣的新市古鎮逛了逛,順便吃到了一些有著當地特色且非常值得分享的美食,8道菜把我"困"在原地好幾天.為了吃,先不走了. [新市 ...

日本奶奶分享小孫女和三隻大狗狗的日常,治癒了56萬+網友…

日本奶奶分享小孫女和三隻大狗狗的日常,治癒了56萬+網友…
在ins上有一位普普通通卻又特別的"奶奶博主",她是日本山形縣人,家裡三世同堂,跟老伴.兒孫生活在一個雋美又恬靜的小地方. 老奶奶叫做Tamanegi,曾經是一位設計師,後來歸隱田 ...

水銀的毒性有多強,是如何影響人體的?我們離汞中毒很近

水銀的毒性有多強,是如何影響人體的?我們離汞中毒很近
20世紀50年代中期,日本海灣小鎮--水俁的居民發現他們的貓非常奇怪,有些會瘋狂地亂叫,有些無法正常走路,有些甚至直接跳到海里. 人們驚訝之餘,並沒有做出太多的調查.而不久之後,一種奇怪的疾病開始在鎮 ...

別再“黑”泡麵了,真正要少吃的是這5種食物,儘早知道為好

別再“黑”泡麵了,真正要少吃的是這5種食物,儘早知道為好
隨著人們生活質量的不斷提高,可供人們選擇的食物也更加多樣化.不過,在面對美食的誘惑時,很多人都無法把持住自己的想法,從而養成了不良的飲食習慣,對一些垃圾食品也比較喜歡.垃圾食品是很多人經常會提起的,但 ...

漢語影響傳統文化?新加坡廢除、抵制漢語的原因,才沒那麼簡單

漢語影響傳統文化?新加坡廢除、抵制漢語的原因,才沒那麼簡單
對於喜歡旅遊的人來說,新加坡是一個非常不錯的選擇,風景人文就不必說了,而且去那裡遊玩沒有語言障礙,因為新加坡人大多是華裔,漢語講得很不錯,甚至在世界上,新加坡人還經常會被誤認為是中國人.其實這樣講也有 ...

​燉豬肉,有三種料不能放,會讓豬肉的味道變差,吃著不香,別弄錯

​燉豬肉,有三種料不能放,會讓豬肉的味道變差,吃著不香,別弄錯
導語:燉豬肉,有三種料不能放,會讓豬肉味道變差,吃著不香,別弄錯 豬肉一直是特別受歡迎的一種肉類,不管在它貴還是便宜的時候,都有很多人買來吃,隨便一燉就很美味.如今豬肉價格變得非常便宜,又回到了從前, ...

家底都保不住了?一旦蘇格蘭獨立,將對英國產生什麼影響?

家底都保不住了?一旦蘇格蘭獨立,將對英國產生什麼影響?
看過<勇敢的心>的朋友都知道,那是一部根據蘇格蘭人民數百年來反英尋求獨立的歷史改編的電影. 而最近英國多家媒體爆料,英國海軍已經做好了一旦蘇格蘭獨立就立即轉移核潛艇基地的預案,難道身為英國 ...

這些食物放進冰箱會加速腐敗

這些食物放進冰箱會加速腐敗
來源:中國經濟網 冰箱已成為現代人生活中不可缺少的物品,隨著科技的進步,冰箱的功能也逐漸變得越來越齊全.毫無疑問,冰箱可以增加食物的貯藏時間,所以很多人把冰箱當成了家裡的"萬能儲物箱&quo ...

廚房裝修的11個“細節”,條條都很實用!尤其第一條,影響幸福感

廚房裝修的11個“細節”,條條都很實用!尤其第一條,影響幸福感
"民以食為天",廚房裝修的重要性毋庸置疑. 一個好的廚房設計,不僅是視覺上的享受,帶來的更是下廚時滿滿的幸福感. 而對於裝修小白來說,裝修是一件讓人又愛又恨的事情,一不小心就會&q ...