sponsored links

大資料平臺治理——運營的角度看數倉

前言

三分靠技術,七分靠管理,其實一直就是技術崗位的現狀,事實上在一個完整的網際網路產業結構中,除了本身的軟體效能和軟體設計的優雅追求,還有著業務的持續運營以及背後的商業模式的運作。分析師的工作更多的就是指導業務的運營以及商業上成本的考量,以便為進一步的決策提供資料參考,本文就從一個數據分析師的角度去聊一下數倉的治理。

分析框架

開局一張圖

大資料平臺治理——運營的角度看數倉

我們說一個數倉的好與壞不是單純的某個地方的好與壞,而是透過從左看右看上看下看達到一個最佳化區域性最優到整體最優的解決方案。我們需要的一個結果就是數倉的健康,當然,健康的定義又可以有很多詮釋,比如說控制野蠻生長、高時效、資產覆蓋度厚實、模型規範、高質量等考量。基於各個方面的考量,我對數倉需要關注的點做了一個梳理,從這些點出發,我們便可以去建立考核的運營指標。從大類的劃分主要分到兩塊,一塊就是資源成本模型,因為本身成本就是錢嘛,另一塊的話就是數倉的規範性,因為數倉的規範性衡量的其實就是數倉好用的一個方向,畢竟這個才是本身數倉的價值所在。

成本模型指標化

數倉的成本模型其實分為兩大塊,一塊就是我們的儲存,另一塊就是計算了,我們關注的就是儲存到底有沒有問題,或者說計算是不是有問題,怎樣去衡量這兩塊健康與否呢,一般是三部曲——技術引數量化+資源消耗成本化+成本指標化,下面我們分別進行說明。

大資料平臺治理——運營的角度看數倉

大資料平臺的成本主要是儲存成本和計算成本來衡量。下面從這兩塊進行剖析。

儲存成本化

衡量儲存的技術引數

衡量儲存的引數項主要是空間+格式+壓縮演算法,如下表格:


專案


技術描述


檔案


資料空間 、臨時空間、資源空間


格式


文字、ORC、SequenceFile


儲存介質


SSD、HDD、SMR


壓縮演算法


gzip、bzip2、LZO、LZ4、Snappy

儲存的目標

儲存少+備份少+壓縮比高+更省錢便是儲存的目標了,為了達成目標我們其實是透過不同手段去實施的,可想到的辦法可以一張表格:


專案


辦法


儲存少


模型最佳化、減少節點數、週期性清理、無用表刪除、檢視化或者物化檢視


備份少


回收站清理,中間表直接去掉回收站、EC編碼歸檔(3份變成1.5份)


壓縮比高


Orc儲存、資料重分佈、Bucket分桶儲存


省錢


冷備份、便宜儲存介質

儲存成本化

根據儲存的目標,儲存成本化,我們一般是按照計算和儲存總成本進行分攤,*成本=(儲存r1+計算*r2)**,然後進行定價,比如1TB=1塊錢,其中1塊錢按照總成本進行換算分攤,因為還會分攤總的包括機櫃,頻寬的成本,所以成本計算並不代表實實在在的採購成本,但是會有對應的關係。

儲存成本指標

指標的構建可以比較靈活去調整,目標是有效指導且可落地,可衡量成本的參考指標如下:


類別


指標項


粒度


參考獲取


儲存


容量、長生命週期數量


部門、專案、Owner


TopN、彙總、分佈


備份類


回收站生命週期、容量


部門、專案、Owner


TopN、彙總、分佈


壓縮格式


壓縮格式佔比、容量


部門、專案、Owner


TopN、彙總、分佈


低成本


表訪問頻率,儲存格式,容量


部門、專案、Owner


TopN、彙總、分佈

資源成本化

衡量資源的技術引數

衡量計算的主要引數是資源佔用+計算耗時因為資源的計算平臺是比較難容忍高峰期的佔用,且和排程頻率都有關係,所以一般還會考慮排程成本、如下表格:


專案


技術描述


CPU消耗


Task佔用CPU個數*時間


記憶體消耗


Task記憶體佔用*時間


作業時間


XX分鐘


排程頻率


分鐘級、小時級、天級、每天排程次數


排程時間段


高峰時期(00:00-9:00)、低峰時間段(9:00-22:00)


資料傾斜


嚴重傾斜、輕度傾斜


大檔案掃描


長週期數據掃描


資源分佈


低併發、高併發

計算目標

對於資源的最佳化來說,其實目標就是達到計算效能的最佳化,但是計算的場景其實是相對複雜的,針對整個平臺來說,實際的場景是保障高峰時段的資源使用就可以了,而且是關注高優先順序的作業,低峰的話就沒關係了,一般平臺側識別出一些問題場景,針對問題比較大的場景去進行最佳化,同時最佳化側的辦法其實是由平臺和Owner一起出方案進行落地:


專案


辦法


高峰資源減少


不緊急任務錯峰、排程後延、任務定點效能最佳化


高頻作業保障


高頻作業常駐記憶體、批作業流化


作業計算合理性


大掃描、傾斜等任務治理


資源保障


優先順序劃分、資源分配粒度合理、資源借調

資源成本指標

指標的構建可以比較靈活去調整,目標是更多的發現問題,可衡量成本的參考指標如下:


類別


指標項


粒度


參考獲取


資源


資源使用分佈


佇列、部門、專案、Owner


TopN、彙總、分佈、高峰時段、低峰時段


作業問題類


資料傾斜、大掃描、任務報錯


部門、專案、Owner


TopN、彙總、分佈


作業頻率


作業天排程次數


作業級


TopN、彙總、分佈


作業優先順序


高優先順序作業數量、延遲情況


部門、專案、Owner


TopN、彙總、分佈


時效保障


1小時以上作業數量、2小時以上作業數量


部門、專案、Owner


TopN、彙總、分佈

數倉規範

前面提到,數倉的規範其實是衡量數倉好用不好用的一項參考,要想衡量一個數倉好和不好,我們首要的就是給好和不好界定標準、然後根據這個標準去進行匹配,這樣我們就可以對健康程度進行量化,從而產生我們的運營指標。所以對於數倉來說,也是三部曲:——定義標準+標準化度量+模型健康度指標。數倉的衡量主要是在模型規範和層次規範上進行衡量,下面逐一說明。

大資料平臺治理——運營的角度看數倉

數倉層次化規範

資料的劃分

資料的劃分其實也就是我們所謂的頂層設計,劃分的方式本身隨著業務的規模,組織結構以及經濟體的要求不同而不一樣,但是不管出於什麼考慮,我們總是希望我們的資料在整個劃分層次上是可以找到對應關係的,不管是傳統的3層也好,5層也好,甚至7層模型也好,我個人觀點可以參考我們的linux對目錄的劃分,不管世界怎麼複雜,都需要有自己的歸屬。

大資料平臺治理——運營的角度看數倉

需要了解的是,即使是資料的架構,是緊密跟上時代的變化的,傳統的ODS->DWD->DWS->ADM的場景在企業發展的過程中不斷的經受著新挑戰,首要的其實就是軟體系統的改變,下一步就是資料體系的改變了,所以數倉規範的過程其實是有參考現代容器化部署的思想,引入租戶隔離、單元板塊架構,加上原有的專案劃分和數倉分層便是現代的架構模式了。

大資料平臺治理——運營的角度看數倉

層次化規範的考量

我們的考量標準,在劃分的基礎之上對資產都有掛靠,這在一片混亂的資產治理中便是邁向了第一步:


專案


技術描述


單元板塊劃分


有無定義


穿透率


下游對上游訪問是按層次還是直接跨層級訪問


層級覆蓋


指的上一層次的訪問對下游的覆蓋情況,一般是觀測中間層資產的覆蓋程度

層次劃分下的指標


類別


指標項


粒度


參考獲取


資產分佈


可掛靠的資產數量


單元、板塊、專案、Owner


TopN、彙總、分佈


資產分佈


跨板塊不可覆蓋的資產數量


專案、Owner


TopN、彙總、分佈


穿透率


dws、adm等下游應用層穿透到ods的數量、比率


單元、板塊、專案、Owner


TopN、彙總、分佈


穿透率


adm等下游應用直接訪問上一層級dwd\dws的數量、比率


單元、板塊、專案、Owner


TopN、彙總、分佈

模型規範

模型規範主要是從模型定義規範和資料質量上面來衡量,定義規範是保障使用方好用而質量保證是保證資料是對的,這個是對資料最base的要求。

模型定義的規範

表的定義一般是按照層級規範會做表名上的約束,不符合規範的就是異常情況了,規範命名的建議是單獨對不同層次去做規範,因為在ods+dwd+dws+adm表達的資訊其實不一樣,我們的目標是期望在命名上就找到歸類。剩下的便是基礎的對錶使用了


專案


技術描述


表命名規範


是否按照規範定義


生命週期


明確的生命週期和說明


描述資訊


常規的就是中文資訊,其他國際化場景是詳細英文註釋


欄位合理性


欄位的定義、取值是否是遵循儲存內容合理定義


時效要求


期望描述是高優先順序還是常規,對資源分配要求不會一樣


資料來源


期望描述上下文資料的獲取來源


資料質量


準確性、完整性、一致性的要求,需要有對應的dqc規則覆蓋

模型定義規範性指標


類別


指標項


粒度


參考獲取


表命名規範


規範資產+不規範資產定義量


單元、板塊、專案、Owner


TopN、彙總、分佈


生命週期


長週期資產、歷史無訪問的資料情況、數量+明細


專案、Owner


TopN、彙總、分佈、明細清單


時效要求


高基線上的高延遲作業


單元、板塊、專案、Owner


TopN、彙總、分佈


描述資訊


描述資訊、欄位資訊是空的情況


單元、板塊、專案、Owner、表清單


TopN、彙總、分佈


資料質量


資料質量透過率


單元、板塊、專案、Owner、表清單


TopN、彙總、分佈

後記

從各種資產考量中定義問題,到指標化其實是整個一個數據運營分析的一個思路,此時的數倉其實是需要當作一個業務主體來看待——基於數倉的元資料去看數倉,從指標體系的角度去看到整個數倉的資產狀態,找出最佳化數倉的最短路徑,便是達到了我們的目標。

分類: 體育
時間: 2021-12-05

相關文章

41歲老將率隊擊敗衛冕冠軍後,再次創造冷門!3-2險勝王楚欽

41歲老將率隊擊敗衛冕冠軍後,再次創造冷門!3-2險勝王楚欽
41歲老將率隊擊敗衛冕冠軍後,再次創造冷門!3-2險勝王楚欽.2021年全運會乒乓球男團已經進入了白熱化階段,41歲老將侯英超帶領東道主陝西隊在1/4決賽中擊敗了由許昕率領的衛冕冠軍上海隊,其中侯英超 ...

男乒主力全勝!馬龍3-0橫掃,樊振東又丟1局,王楚欽連贏3局逆轉

男乒主力全勝!馬龍3-0橫掃,樊振東又丟1局,王楚欽連贏3局逆轉
9月18日,全運會乒乓球比賽繼續進行男團較量,2大奪冠熱門廣東隊.北京隊同時出戰.馬龍.樊振東.王楚欽等奧運隊員皆獲得比賽勝利,其中,馬龍迎來本屆全運會比賽中首場零封. 在第一輪團體比賽中,男乒3大奧 ...

世界冠軍慘敗3局僅15分,樊振東橫掃王楚欽,女乒名將獲亞軍落淚

世界冠軍慘敗3局僅15分,樊振東橫掃王楚欽,女乒名將獲亞軍落淚
9月21日,全運會乒乓球男團比賽展開決賽較量,兩大豪門廣東隊.北京隊上演強強對話.在首盤比賽中,世界第一.奧運冠軍樊振東火力全開,完勝00後世界冠軍王楚欽! 廣東隊坐擁樊振東.林高遠.周啟豪等三大現役 ...

山東魯能級晉級乒超決賽 王楚欽賽後一句話太貼心了
齊魯網·閃電新聞10月11日訊山東電視體育頻道記者瞭解到,10月11日,乒超半決賽,上海地產集團對陣山東魯能,最終,山東魯能3-0戰勝對手,晉級決賽. 首回合雙打,閆安與王楚欽3比2戰勝許昕與徐晨皓. ...

中國斯諾克5人晉級!00後爆冷2冠王,147雙星接力登場,名將退賽

中國斯諾克5人晉級!00後爆冷2冠王,147雙星接力登場,名將退賽
昨夜今晨,2021年斯諾克英格蘭公開賽資格賽結束第2比賽日,中國軍團又有3人晉級,共5人從首輪突圍.19歲小將常冰玉爆冷排名賽2冠王戴爾,徐思逆轉傑米-瓊斯,147先生曹宇鵬橫掃晉級,另一位打出滿分杆 ...

2021福布斯中國名人榜出爐,00後蟬聯榜首,王一博僅排第二

2021福布斯中國名人榜出爐,00後蟬聯榜首,王一博僅排第二
導語,作為一款創辦於1917年的商業雜誌,<福布斯>在全球享有非常高的知名度,從2004年開始,該雜誌開始對中國名人進行調研和評估,並整理成<福布斯中國名人榜>. 能夠進入福布 ...

男女團8強產生!劉詩雯沒能率隊進8強,馬龍許昕有望會師半決賽

男女團8強產生!劉詩雯沒能率隊進8強,馬龍許昕有望會師半決賽
9月19日,第十四屆全運會乒乓球專案團體小組賽結束爭奪,在女團D組的一場焦點戰中,劉詩雯依舊是兩度出場,不過這一次她沒能再次拿兩分,廣東女隊1-3輸給後丁寧時代的北京隊,進而排在小組第三,無緣進入8強 ...

孫穎莎出局無緣團體決賽!41歲老將再勝00後國乒主力,京粵會師

孫穎莎出局無緣團體決賽!41歲老將再勝00後國乒主力,京粵會師
9月20日,2021年全運會乒乓球團體半決賽.由41歲老將侯英超率領的東道主陝西隊打破歷史,闖入男團4強,迎戰豪門北京隊:朱雨玲因病缺席的情況下,範思琦.楊蕙菁.郭豔以黑馬之勢闖入女團4強,與陳夢率領 ...

恭喜!國乒兩位00後黑馬苦戰五局摘銅,曹巍獲得第二枚全運會獎牌

恭喜!國乒兩位00後黑馬苦戰五局摘銅,曹巍獲得第二枚全運會獎牌
2021年9月25日晚間,全運會乒乓球男雙比賽繼續進行,上海隊尚坤/趙子豪和黑龍江隊曹巍/徐瑛彬爭奪銅牌,勝者將登上領獎臺,這場對決受到外界球迷的關注,雙方實力接近,但是尚坤/趙子豪的大賽經驗更豐富一 ...

“00後”小將扛起大旗 巴黎週期前景可期

“00後”小將扛起大旗 巴黎週期前景可期
十四運會激戰正酣,"00後"選手正在各個賽場掀起青春風暴.楊倩.李雯雯.全紅嬋等選手在一個多月時間裡實現了奧運全運金滿貫.在舉重.跳水.射擊.羽毛球等優勢專案上,"00後 ...

大爆冷!男乒世界冠軍慘敗“一輪遊”,多位國乒勁敵已被淘汰出局

大爆冷!男乒世界冠軍慘敗“一輪遊”,多位國乒勁敵已被淘汰出局
全運會乒乓球比賽激戰正酣,遠在卡達多哈的WTT球星挑戰賽也正在同步進行,9月23日更是爆出了多個超大冷門,包括男乒世界冠軍奧恰洛夫.莊智淵,韓國名將張禹珍.申裕斌.徐孝元在內的多位國乒勁敵慘遭淘汰,有 ...

日本男乒四將單打過關,19歲女將三局僅丟8分,男雙日韓各折一陣

日本男乒四將單打過關,19歲女將三局僅丟8分,男雙日韓各折一陣
北京時間10月2日訊息,2021年乒乓球亞錦賽在卡達多哈繼續進行,男單首輪,日本選手吉村和弘.木造勇人.松村雄鬥.戶上隼輔發揮出色,全部過關:女單首輪,19歲的日本新秀長崎美柚三局比賽僅丟8分過關:男 ...

上海男乒自釀苦果,許昕3單隻能眼睜睜看侯英超攪局!京粵冀入4強

上海男乒自釀苦果,許昕3單隻能眼睜睜看侯英超攪局!京粵冀入4強
北京時間9月20日上午10點,第十四屆全國運動會乒乓球團體賽8強戰打響.男團方面,馬龍再遇強勁衝擊,苦戰獲勝帶領北京隊晉級4強,將與淘汰了衛冕冠軍上海隊的東道主陝西隊爭奪決賽門票:樊振東3比0橫掃助廣 ...

梁靖崑遭侯英超橫掃,河北男乒苦勝獲第3!孫穎莎3單涉險率隊摘銅

梁靖崑遭侯英超橫掃,河北男乒苦勝獲第3!孫穎莎3單涉險率隊摘銅
北京時間9月21日上午,第十四屆全國運動員乒乓球男.女團體兩場銅牌爭奪戰同時打響.女團三四名之爭在河北與四川之間上演,孫銘陽.何卓佳.孫穎莎連贏三盤獲勝,河北隊收穫一枚銅牌.值得一提的是,四川隊郭豔在 ...

全運會乒乓球團體賽首日 東京奧運選手發揮穩定 香港“00後”小將表現亮眼
新華社西安9月17日電(記者李浩.陳地)17日,第十四屆全運會乒乓球團體比賽開打,出征東京奧運會歸來的選手馬龍.許昕.陳夢.王曼昱等人均取勝,所在隊分別取得"開門紅". 男子團體方 ...

深度:乒乓球男女團體賽賽場,女乒體現百花齊放男乒仍是龍胖爭霸

深度:乒乓球男女團體賽賽場,女乒體現百花齊放男乒仍是龍胖爭霸
在全運會的乒乓球賽場上,團體賽的比賽已近尾聲.從男團和女團的競爭格局來看,明顯男女隊所呈現出來的格局有很大不同.這裡面有讓大家歡喜的地方,也有讓大家憂愁的地方.當然,總的來說,喜大於憂.而且說句真心話 ...

“為熱愛買單”,00後宅男變身新手藏家

“為熱愛買單”,00後宅男變身新手藏家
錢江晚報·小時新聞記者 馬焱 佳士得半年報顯示,今年上半年,共有30%的買家首次參與拍賣,亞太區誕生了47%的全球新世代買家.各家拍賣行的半年年報也指出,亞洲買家特別是年輕買家,正展現出強勁的市場購買 ...

又一00後亮劍!3-0橫掃後3-2淘汰劉詩雯,國乒人才輩出劉國樑該笑

又一00後亮劍!3-0橫掃後3-2淘汰劉詩雯,國乒人才輩出劉國樑該笑
#劉詩雯3比0完成全運會首秀# 國乒的內卷真的太嚴重了,縱使你是奧運冠軍,你在全運會的舞臺上都不穩.早些時候陳夢就0-3不敵國乒隊友王曼昱,許昕則0-3不敵梁靖崑,馬龍兩場比賽都是驚險逆轉取勝.不得不 ...

10秒22,中國00後百米黑馬逆風放水20米仍奪第一 已接班蘇炳添

10秒22,中國00後百米黑馬逆風放水20米仍奪第一 已接班蘇炳添
北京時間9月20日,全運會田徑首日,在男子百米預賽第一組,2000年出生的廣東天才新星陳冠鋒展示超強天賦和比賽能力,在大逆風-1.0m/s不利條件中放水20米,跑出10秒22成績,力壓第二組謝震業10 ...

中國斯諾克黑暗1日!3人出局,00後小將1分未得,慘敗特魯姆普
昨夜今晨,2021年斯諾克北愛爾蘭公開賽繼續進行,中國斯諾克迎來黑暗1日:範爭一.徐思.高陽全部出局,2人被橫掃,00後小將更是被特魯姆普打得1分未得,僅魯寧收到傑米-奧尼爾的退賽禮,不戰而勝直通32 ...