今回のお題は、「IT運用の原理原則」というかなりハードルの高いお話しをしたいと思います。
さて、いきなりですが
「どうして、IT運用は必要なのでしょう?」
私はこう考えます。
ITシステムが何も変化しなければ運用は必要ないのではないか・・・・。と。
つまり、無人のデータセンターで粛々とシステムが動いてるわけですから、運用オペレータもシステム管理者も不要ですね。
ですが、現実はそうは問屋が卸しません。
ITシステムは、
- 故障
- バグによるシステムダウン
- バージョンアップや不具合対応
- 悪意のあるアタック
- 予測以上のユーザアクセス数増加によるスローダウン
- 業務上の変更要求
- 作業ミス(変更)による不慮のシステム停止
- 災害
などなど、システムをサービスインしてからも状況が変化します。
よく、運用はシステムのお守りとも言われます。
要は、ITシステムを赤ちゃんに例えてみれば良いわけで、ぐずったり泣いたり、病気にならないように世話をする訳です。夜泣き出したら眠い目をこすって親は泣き止むまで世話をします。熱が出たら、専門の医者で診断を受けますよね。
つまり、IT運用はITシステムが健康ではなくなりそうな状態に陥る前や陥った後に早く平常状態に戻すような仕事をしているわけです。
では、どんな状態が健康ではない状態なのでしょう?
システムの状態であれば、事前に仕様に基づいて開発・テストされた状態と言えるかもしれません。
また、子供のあやし方もそれなりにおっかさんのテクニックがあって王道みたいな技もあるかもしれません。
こういった状態やルールは標準として定義され、運用中は常に参照されます。
標準からずれた状態は異常(イレギュラー)ですから、運用でなんらかの対策を打ち、標準の状態に戻すことをする訳です。
異常は標準(正常)である状態と比較されて初めて異常とみなされるのです。
ITシステムは赤ちゃんと同じで24時間動いています。管理者は24時間ずっと標準と現状を比較し続け、異常を見つけることに心を砕く仕事をさせられることになります。
更に標準と一言で片付けられないほど多くの比較しなければならない仕事があります。
- アプリケーションの応答時間⇔サービスレベル
- システムリソースの使用状態⇔閾値
- ログファイルの内容⇔エラー番号
- 作業結果⇔テスト済み手順書
- 実際の構成情報⇔管理上の承認済み構成情報
- 障害発生からの時間経過⇔インシデント解決目標時間
などなど現実⇔有るべき姿(標準)を比較しているわけです。常に比較していると中長期での予測も付きやすくなり、予防保全的な活動により不慮の停止などを回避することもできるようになります。
IT運用は現実と標準をいつも比較してイレギュラー状態の発生を予測、検知対応するお仕事なのです。
次回はITサービスって何よ?というお話をしたいと思います。
では!