發布時間:2019-12-04
我是一名運維
也是一個折翼的天使
我就職于某A股上市制造類企業
旗下有江東、濟南、石家莊三個廠區
大家都尊稱我為“張工”
這是一名運維工作者的日常
專家統計:70%的業務問題是用戶先發現的
因此,被用戶抱怨是常有的事
專家還說了,
90%的精力花費在故障分析和定位上
因此,被用戶“連環奪命催”也是難以避免的
銷售總是說:
業務部門總是說:
業務運維總是說:
網絡運維總是說:
好好好,大家都沒問題
所以是老板的問題咯?
每天疲于應付部門間扯皮的我:
2019年8月22日
這是我職業生涯中再平常不過的一天
一如既往又有問題發生了
ERP系統打開特別慢,一個訂單半分多鐘才能打開
我頓時有點慌
因為消費者在門店下單后,工廠通過ERP系統接收到訂單,然后開始進行備料、生產、交付,該業務出現問題,整個生產活動都會受到影響。
雖然我熟悉各區域的網絡,但處理這種問題還是非常沒底。
我需要從報障的終端用戶到ERP業務服務器之間的設備,逐一檢查
運氣好的話,1個小時
運氣不好的話,5、6個小時也有可能
忽然想起公司最近新采購了“獵豹”
聽說獵豹是一個智能運維平臺,能站在最終用戶的視角評估業務應用的好壞,及時感知用戶的訪問體驗,并可以快速定位問題,界定責任人。
我嗤之以鼻,這種業界難題
是你一個系統就能解決的嗎?
那我倒要看看這只“獵豹”到底行不行
沒想到的是
打臉來的太快就像龍卷風
我的難題三步就被解決了:
Step1:
我接收到了獵豹通過郵件和短信發來的告警通知
Step2:
通過獵豹提供的告警詳情,分析故障時刻用戶與U9業務交互的體驗KPI,對指標進行鉆取分析,了解到具體是哪些用戶與U9業務訪問過程中產生了慢的體驗,然后基于這些源IP進一步縮小故障影響范圍的判定。
Step3:
經過一輪分析,最終判定問題出在某一家運營商鏈路上,數據包分析的結論給了張工充足的依據證明該運營商鏈路存在較多丟包、不穩定的現象導致了此故障的發生
我趕緊把這一信息反饋給了運營商
運營商對自己的廣域網鏈路排查分析后,故障修復了。
整個過程,沒有扯皮,沒有抱怨,
處理問題快、狠、準,
我忍不住想要為獵豹鼓掌??
原來,故障定位,用獵豹就夠了!
以前,我們沒有數據支撐來說明業務體驗的好不好,考核指標也只是根據業務是否宕機。而現在,獵豹可以幫助我們量化和提升用戶體驗;
以前,我們總是晚于用戶發現問題,只要不是非常大的延遲問題,用戶不會主動反饋,一旦反饋就是大面積問題。而現在,獵豹主動在延遲出現的時候發現體驗問題,更早排查原因,運維從此不再被動;
以前,故障無法追溯,經常有些問題過一會就沒了,原因根本沒法找。而現在,獵豹幫我們秒級“還原現場”,眼見為實。
獵豹是一只聰明的小豹子,它深刻洞察業務、量化用戶的體驗、快速定位問題、支持故障自愈、數據回溯,讓運維工作,從未如此簡單。
