IT 運維中的事件、故障排查處理思路
服務(wù)整體性能下降或異常,可以考慮重啟服務(wù); 應用做過(guò)變更,可以考慮是否需要回切變更; 資源不足,可以考慮應急擴容; 應用性能問(wèn)題,可以考慮調整應用參數、日志參數; 數據庫繁忙,可以考慮通過(guò)數據庫快照分析,優(yōu)化SQL; 應用功能設計有誤,可以考慮緊急關(guān)閉功能菜單; 還有很多……
是否為偶發(fā)性、是否可重現
是否進(jìn)行過(guò)相關(guān)變更
是否可縮小范圍
關(guān)聯(lián)方配合分析問(wèn)題
是否有足夠的日志
是否有core或dump等文件
召集相關(guān)人員 描述故障現狀 說(shuō)明正常應用邏輯流程 陳述變更 排查進(jìn)展,展示信息 領(lǐng)導決策