sponsored links

我對異常監控功能設計的一些理解

編輯導語:對於SaaS產品來說,系統的穩定性是產品可用性原則的體現,為保證系統的穩定性,則必須做好系統的監控與日誌功能。本篇作者就以訂單中心這一實際的產品,分享了自己對異常監控功能設計的一些理解,一起來看看吧。

我對異常監控功能設計的一些理解


對於SaaS產品來說,系統的穩定性是產品可用性原則的體現,為保證系統的穩定性,則必須做好系統的監控與日誌功能。日誌功能已在之前的文章中進行描述 《小功能大思考:訂單軌跡日誌功能設計思考》而監控功能從以下方面保證了系統的穩定性:

  • 及時感知異常
  • 方便排查異常
  • 高效處理異常
  • 降低異常影響
  • 有效分析異常

筆者目前在負責一個O2O訂單中心產品,產品的主要功能為:聚合分發訂單以實現訂單的履約。

所謂聚合,是獲取了美團外賣、餓百、有贊等公域和私域的O2O訂單,進行了訂單資料的一致化標準化。

所謂分發,是將資料一致化後的訂單分發至門店作業系統,聚合物流系統,ERP系統,統一進行標準化揀貨作業、標準化配送、標準化記賬與庫存管理。

在實際業務開展過程中,系統不穩定,由於涉及的系統眾多,一個完整業務流程的節點也眾多,造成運維工作量量較大。

今天筆者就以訂單中心這一實際的產品,分享我對異常監控功能設計的一些理解。

一、監控什麼

有同學肯定要問,運維不是有自己的自動化運維工具,可以對諸如介面請求異常、資料庫異常等做自動化的監控嗎,為什麼我們還要設計監控管理功能,原因有兩個:

1. 工具的使用物件不同

運維自動化工具面向的是運維部門,如kibana日誌分析平臺等工具需要掌握一定的語法和在海量資料中抓住異常的技巧,而系統的技術支援人員如運營或客戶的IT部門,掌握這種工具或技能的成本較高,無疑使用這種工具是增加了系統整體運營成本的。

2. 工具的使用場景不同

如果將產品分為介面層、表現層、業務層、儲存層,那運維自動化工具是對介面層和儲存層進行的監控,運維工程師進行監控時也不會嘗試理解當前異常對實際業務有沒有造成影響,造成了什麼影響,資料是否要修正,是否需要安撫客戶等等問題。

如讓運營同學對接運維工程師來進行判斷,運維工程師使用技術語言告知運營又經常雞同鴨講,同事大量不影響實際的業務的異常沒有過濾直接交給運營,也大大增加了運營同學的判斷工作量。

故我們需要對系統各個層級的異常進行梳理、過濾、轉義,以讓運營同學聚焦影響業務的異常,那麼我們一般監控下面兩個方面:

  1. 業務監控:遵循一定的系統規則,判斷系統中的資料或指標異常,如:訂單中門店資訊缺失、門店營業時長畸低、門店長時間未揀貨、多系統庫存差異等。
  2. 系統監控:系統故障造成正常業務無法繼續進行的異常,如:如介面呼叫異常,導致資料沒有正常流轉到下游系統。

二、如何感知

在《THINK IN UML》一書中,表述了現實執行的機制:人驅動系統、事體現過程、物記錄結果、規則控制執行。那麼其實我們在感知異常時,也是對事和物進行監控。

1. 物——對結果進行監控

一般用於監控邏輯隱藏在系統底層,業務節點比較複雜的業務。

以庫存同步舉例:商品運營經歷在訂單中心發起庫存校準任務,ERP識別到此訊息後根據任務任務加工同步資料,接著同步至訂單中心,然後由訂單中心根據庫存策略加工出不同的數量分發至各個平臺。

在這個業務中,我們經常會發現,由於系統累積性的差異,如ERP中庫存扣減憑證未及時生成或服務短時波動造成資料同步丟失等等原因(非同步系統不可避免出現的問題),造成多方系統資料不一致,往往可以透過對多個系統的資料限定範圍進行盤點來發現異常。此種對異常的監控一般是由監控系統的使用者主動發起的。

或是對於系統中描述性的資料進行監控,也是一種對結果的監控,這些描述性的資料由於它達到了預設的標準,滿足了預設的規則,它的資料才視為有意義的異常,資料本身在累加計算的過程中是沒有意義的。比如此門店的本日營業額畸低等等。

需要說明的是,對結果的監控一般不會獨立使用,它應作為對事的監控的補充兜底。

那什麼是對事的監控呢?

2. 事——對過程中的節點進行監控

以訂單業務為例,涉及到訂單中商品的翻譯、庫存尋源確定發貨門店、門店揀貨、ERP生成憑證等節點,門店揀貨從系統實現層面上又可以分為通知門店前臺作業系統,門店前臺系統作業提醒,門店確認揀貨完成等節點。

由於各種業務節點是清楚的明確的(借用UML的的觀點簡單闡述一下為什麼業務節點一定是清楚的明確的:系統設計是對現實世界的抽象,現實世界抽象成一個個用例,用例驅動概念設計,並最終進行編碼,每一個用例都有明確的執行者,前置條件,可選流程與輸出物)。

當我們按照MECE原則拆分到一個可供監控且有意義的顆粒度,如對訂單中心推送新訂單訊息至門店前臺系統失敗,此業務只是訂單履約中的一個節點,當此異常出現時,系統即自動標記異常,不用等待系統定時的比對發現異常。

當然,從另一個角度來說,我們也可以將異常感知的方式區分為這麼兩種:

  1. 業務進行中出現異常,系統自動標記。
  2. 監控系統使用者主動發起異常校驗或系統根據預設的規則定時比對發現異常。

三、如何處理

當系統識別到異常時,應當如何處理呢,我們一般有兩種方式:

1. 系統自動處理

如從外賣平臺拉取訂單時,資料缺失,系統可以做自動重試機制。

使用系統自動處理機制一般比較慎重,僅使用在可以依靠重新嘗試拉取可以解除異常的場景下,一般不做複雜的異常解除邏輯的自動化,如訂單長時間未備貨,此時如果系統自動備貨,可能會造成系統無法反映真實作業情況的問題,具體可以看這篇文章,來理解為什麼要慎用系統自動邏輯《1-2年產品經理:教你接盤與重構的姿勢》。

2. 人工介入處理

仍以外賣平臺拉取訂單時資料異常的例子來說,當系統自動重試次數達到上線後,為減輕系統壓力,不影響其他正常單據的處理,往往會停止自動重試,此時應允許人工介入處理。在設計人工處理異常資料時,應注意:

  1. 在對應異常單據中標註異常原因並提示解除異常的方法。
  2. 人工處理異常後,由於可能涉及到單據中資料的修改,必須提供日誌功能,記錄修改前的資料,修改後的資料以及修改的時間,修改人。
  3. 嚴格控制權限,因為可能要進行業務資料的修改,一般僅允許總部或區域運營進行修改。

當然還要注意一點,有一種非常特殊的異常,即系統根據預設的規則對訂單進行加工,但是由於規則預設錯誤,導致實際加工後的訂單資料也錯誤,如在系統中預設規則,購買A商品1份,實際應發貨B商品12份,但是客戶運營在設定規則時,設定成:買A商品1份,實際應發貨B商品120份。

此時系統不會對此單據標記異常,但是確實不符合實際,此時人工介入處理時,應允許人工標記訂單異常後再進行資料修正。

仍然是上面的例子,由於預設規則的錯誤,導致揀貨商品數量錯誤,進而導致揀貨商品的單價等都計算錯誤。此時應只允許修改揀貨商品的數量,而不應允許修改揀貨商品的單價,揀貨商品的單價應由系統進行計算。即規則是:只改異常直接導致錯誤的欄位值,而不改間接導致錯誤的欄位值。

四、如何提醒

上面說到,有一些異常是需要人工介入處理的,那麼異常監控相關的提醒方式一般有哪些呢,我給大家簡單介紹一下當前我們使用的方式:

我對異常監控功能設計的一些理解

五、業務的截停與恢復

當一個業務發生異常,可能導致後續動作無法開展時,需要截停業務。如訂單資料缺失,可能造成ERP系統無法正常生成憑證,此時就應該截停通知ERP系統生成憑證的動作,等待異常解除後再恢復此動作。

對於SaaS系統來講,傳遞給其他系統的資料應儘量保證正確,如果多個系統中都有此異常資料,那麼異常資料的修正就麻煩多了。這就是異常監控功能設計中必須要要考慮的如何儘可能的降低異常影響的範圍。

六、資料分析

一個健康的產品,功能體系設計一定是閉環的,當我們識別出異常後,需要對異常情況進行評估分析,以不斷提高業務水平。發現一個問題就解決一個問題,在一個專案上發現一個問題,就只處理這個專案上發現的問題,是SaaS產品運營過程中不可取的。

我們一般需要進行資料的分析,達到以下目的:

  1. 反應系統執行情況:展示該問題出現的次數,比例和趨勢,作為產品的健康度的考核指標,並作為績效考核指標對相關人員進行考核。
  2. 發現現有問題:產品功能設計是否有缺陷,使用者操作是否有問題,是否需要產品功能最佳化,是否需要進行操作人員的培訓考核等,進行針對性的改進。

如對門店揀貨超時這種異常情況進行分析,我們可以分析各個門店,各個區域的揀貨率(揀貨成功的訂單/所有訂單),揀貨超時率(揀貨超時的訂單/所有訂單)。

如揀貨超時率一直很高,我們就要調研以下揀貨超時率高的原因,是訂單太多確實沒法及時完成所有訂單的揀貨,還是門店人員不願意或忘記點選確認揀貨呢,如是第一個原因,那可以考慮多人同時揀貨或揀貨路徑規劃的功能了,如果是第二個原因,那可以考慮是否最佳化系統的操作體驗。

七、總結

異常監控功能的設計對於新手產品經理來說是有些難度的,因為要回答監控什麼,怎麼監控的問題,依賴於對業務實現邏輯的清晰理解,也依賴於對運營人員處理問題過程中痛點的準確把握,故建議多諮詢開發與一線的運營人員,做好需求調研和方案確認的工作,確保產品設計確實可以解決問題。

八、附錄

給大家一個我整理的異常監控管理需求梳理的表格,供大家參考:

我對異常監控功能設計的一些理解


本文由 @kathic 原創釋出於人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基於 CC0 協議

分類: 科技
時間: 2021-10-11

相關文章

Nature子刊:劉河生教授發現精神疾病患者腦活動的核心紊亂z

Nature子刊:劉河生教授發現精神疾病患者腦活動的核心紊亂z
本文來源於"優腦銀河",已授權轉載 精神障礙性疾病嚴重影響人們的心智,患者難以正常思考,無法正常反應情緒及有效溝通,無法正常理解現實,同時出現幻覺.妄想等異常行為,如精神分裂症等, ...

還未爬到食物鏈頂端,但章魚的智力已高到“令人無法理解的地步”

還未爬到食物鏈頂端,但章魚的智力已高到“令人無法理解的地步”
在我們生活的這顆星球上,居住著數量眾多的生物.人類是這些生物中的一種,但也是"萬物之靈",比其他的動物擁有更多的智慧,因此才能夠建立起如今輝煌燦爛的人類文明.一些人認為,動物相對於 ...

TCP的FIN_WAIT1狀態理解|深入理解TCP

TCP的FIN_WAIT1狀態理解|深入理解TCP
相關影片推薦 從websocket協議到tcp自定義協議,tcp分包與粘包,明文傳輸 TCP/IP協議棧深度解析丨實現單機百萬連線丨最佳化三次握手.四次揮手 C/C++Linux伺服器開發/後臺架構師 ...

人工智慧讓資料痕跡被監控,這個時候,該如何維護使用者的隱私安全

人工智慧讓資料痕跡被監控,這個時候,該如何維護使用者的隱私安全
隨著數字化轉型和科技革命帶來的創新,社交媒體已經成為人們日常生活的一部分.近年來,社交網路平臺的使用者人數呈指數級的增長,這些平臺提供了極具吸引力的溝通方式,人們也因此更傾向於在網路平臺上獲取和交換資 ...

股票被重點監控的操作
股票被重點監控意味著這個股票在交易上出現了異常或者這個企業在經營上出現了問題.一個股票被重點監控,一般莊家或者大的資金在操作時,會更加註意乃至暫停操作,免得被處罰,因此,這樣的股票一般都是下跌走勢,對 ...

影片監控系統選擇什麼硬碟?綠盤、藍盤、紫盤、黑盤、紅盤有門道

影片監控系統選擇什麼硬碟?綠盤、藍盤、紫盤、黑盤、紅盤有門道
監控系統硬碟怎麼選擇?常見的有綠盤.藍盤.紫盤.黑盤.紅盤分別代表了什麼?有哪些不同呢?今天我們就來聊聊這個話題. 在監控安裝過程中,錄影儲存大多都是採用監控硬碟儲存的.我們發現硬碟上面標籤的顏色會有 ...

影片監控閘道器 監控聯網接入閘道器

影片監控閘道器 監控聯網接入閘道器
計訊物聯5G工業物聯閘道器TG463,全網通5G千兆網路,支援影片資料採集傳輸,邊緣節點計算,具備人臉識別及影片深度解析能力.豐富介面滿足各類影片攝像頭的接入聯網,對接雲端實現遠端線上實時監測控制,廣 ...

密碼鎖+可視貓眼+米家APP實時監控,黑科技堆滿,鹿客智慧鎖體驗

密碼鎖+可視貓眼+米家APP實時監控,黑科技堆滿,鹿客智慧鎖體驗
一.智慧鎖慘痛經歷及對新智慧鎖的需求 去年透過其他渠道,給家裡的門鎖換上了某品牌的智慧鎖,想著,終於也能不用帶鑰匙就出門了!但是,體驗這一年多來,給我及家人卻帶來了很大困擾: 1)APP 無法及時提醒 ...

《黃帝內經》說:語為肝藥,咳為肺藥,涎為脾藥!怎麼理解?

《黃帝內經》說:語為肝藥,咳為肺藥,涎為脾藥!怎麼理解?
<黃帝內經>說"語為肝之藥,咳為肺之藥,涎為脾之藥".到底要如何理解? 在<黃帝內經·素問·宣明五氣論>中有這樣一句話:"五氣為病,心為噫,肺為咳 ...

永遠不要指望別人理解你

永遠不要指望別人理解你
你是否有過這樣的時刻:渴望被理解,可無論你如何表達,對方始終無法體會你的心情. 那一刻,你突然意識到,內心有太多的情緒,只有自己能懂. 作家蘇更生也曾說:"人想要表達的永遠不是他所說的內容, ...

3D人臉識別、影片對講安防監控,給爸媽裝臺德施曼月光寶盒Q8FPro

3D人臉識別、影片對講安防監控,給爸媽裝臺德施曼月光寶盒Q8FPro
大概19年時候給父母家安裝了一套德施曼智慧指紋鎖T11,外觀好看功能全面不用鑰匙一握開鎖也確實方便.老兩口晚上睡覺都比原來安心了很多.不過可能因為父母年歲大了指紋變淺,前陣子有幾次老媽給我打電話說家裡 ...

李雪健抗癌成功二十年,提醒:發現4個異常,或是鼻咽癌敲門

李雪健抗癌成功二十年,提醒:發現4個異常,或是鼻咽癌敲門
中國最貴的演員是誰? 有人說李雪健才是中國最貴的演員,不是因為他的薪酬貴,而是因為他演技貴,出道40多年,已經拿到了33個影帝,是中國唯一的大滿貫影帝. 近幾年,李雪健的身體越來越不好,聽力變得越來越 ...

孩子脖子上摸到包塊,警惕淋巴結異常腫大

孩子脖子上摸到包塊,警惕淋巴結異常腫大
很多家長無意中發現,孩子脖子上有幾個小包包,像花生米一樣大小,摸起來滑溜溜的. 為什麼會在孩子身上摸到淋巴結呢?要不要緊? 圖源:站酷海洛 很多人聽說過一些和"淋巴"有關的嚴重疾病 ...

福建一狗子躺教室蹭空調睡覺,發現後被叫醒,網友:理解那種心情

福建一狗子躺教室蹭空調睡覺,發現後被叫醒,網友:理解那種心情
近日,在福建三明,有網友釋出了一段天,太熱狗子進教室蹭空調睡覺,被老師發現以後當場叫醒的影片,引發了諸多網友們的關注.畫面顯示,當天在三明某所高校內,有幾隻狗子在老師講課的時候,偷偷從教室的後門溜了進 ...

小學4年級數學題難倒985畢業的家長,直言不理解,網友表示看不懂

小學4年級數學題難倒985畢業的家長,直言不理解,網友表示看不懂
文/香橙聊教育 小學4年級數學題能有多難?這是大多數人內心最真實的想法. 然而,當你看到題目的時候,你就會體會到現在的小學數學題能有多難,甚至讓人懷疑人生,985畢業的高材生也看不懂題目.經常能看到這 ...

36歲張學良被軟禁雪竇山:30特務日夜監控,趙四和于鳳至輪流陪護

36歲張學良被軟禁雪竇山:30特務日夜監控,趙四和于鳳至輪流陪護
"不要放虎!" 這句話,是蔣介石留給兒子蔣經國的遺言.這句話裡的"虎",正是"東北王"張作霖的兒子張學良.蔣介石說這話時,西安事變" ...

“do bird”原來和鳥沒有關係!理解錯了很尷尬...

“do bird”原來和鳥沒有關係!理解錯了很尷尬...
英語中有很多短語,儘管拆開之後每個單詞都認識,但是連起來卻怎麼也看不明白,比如"do"是指"做","bird"是指"鳥" ...

房地產雜談,限跌令的內涵得這樣正確理解

房地產雜談,限跌令的內涵得這樣正確理解
最近一直有朋友讓我談談對"限跌令"的理解,其實,在岳陽最先出了"15%限跌令"之後,我就分析了,詳見8月13日的文章<超級補丁>. 該文章標題並沒有 ...

在理解生命這條路上,還有多長路要走
[學科密碼] 三十年前,人們說:21世紀是生命科學的世紀.這表述中蘊含著一種即將掌握生命密碼的豪情,也為人們展開一幅健康可控.壽命延長的美好畫卷.然而,生命科學的進展似乎並沒有達到人們的預期--並非生 ...