よく、運用部門の人たちは「インシデント管理はできている。」と自負されていますが、果たしで本当でしょうか?
これはあくまで個人的な意見ですが、その殆どの人達が「プロセスに従った作業ができている。」と言っているように聞こえてしまいます。
それは、その殆どのケースがプロセスを作り、それ則って作業していることがインシデント管理だ。
と勘違いしているように見えるのです。
そこでいくつかの質問をしてみます。
- 正しくプロセスが実行されていると証明できますか?
- どのようなイベントをインシデントとして扱っていますか?
- クリティカル・インシデントはどのように判断されていますか?
- インシデント管理におけるKPIは決まっていますか?
- KPIの値を定期的に集計し、問題を分析して改善策を提示していますか?
- インシデント対応作業においてサービスレベルは参照されていますか?
- エスカレーションタイミングは決められていますか?
Noと回答される場合、多くのケースにおいてルールが定着していない、マネジメントができていないのです。
プロセスや手順があっても、それをコントロールする仕組みがなければインシデント管理のゴールは果たせません。確かにプロセスや手順を文書化、ルール化しイレギュラーな対応をさせないことは重要なことですが、プロセスには意味があります。
インシデント管理のプロセスオーナーはKPIなどからプロセスを見直していくことが仕事となっています。
見直す視点は、
そのプロセスはサービスレベルを満たせるのか?
です。
インシデントの対応手順が決まっていても、目標とする解決(クローズ)時間に間に合わなければ、サービスの可用性という視点でサービスレベルを達成できなくなります。
つまり、インシデント対応をしている横で時間経過をウォッチし、期限をモニタし、タイミングを見て上位マネジメントを巻き込んだエスカレーションを発動する仕事も必要になるのです。(もちろん、インシデントの優先度、重要度にもよります)
また、軽微なインシデントでも一ヶ月に類似インシデントを数十件~数百件も対応しているなど、問題管理などで、このような問題を分析しておらず、類似インシデントを削減できていないケースも少なくないのではないのでしょうか?
このような場合は、KPIとして類似インシデント数の増減を定期的にモニタし、問題管理プロセスにおいて根本原因を分析し、ソリューションを提供する能力が必要になります。
そして、プロセスにおいてユーザに自己解決ナレッジ提供のセルフサービス化を行ったり、一次ラインのオペレータにナレッジを提供したり、記録やディスパッチのルールを自動化したり、トレーニングをしたりして、インシデント発生において、「ビジネス影響を最小限に抑える」施策を打つのです。
そのプロセスは、本来の目的に合った十分なものか?
を逐次見直しましょう。
次回は、間違いだらけの「運用の自動化」です。