2006年02月07日

障害対応手順

前回の予告どおり,障害対応の手順を説明します。

  1. 障害の発覚
    第一報は,顧客か,監視ツールのエラーとしてあがってきます。
    そこで,何が発生しているのか,どのシステムに影響があるのか,現象を明確にし,他人に伝えれるようにまとめます。

  2. ユーザへの通知
    ユーザに障害の発生を通知します。 障害があってもシステムには影響がなかったり,ダウン時間が短くユーザにバレないと考えたり,ユーザにバレても誤魔化せると踏んだ場合は,ユーザに通知しないこともありますが。

  3. 障害情報の取得
    システムの挙動がおかしいときに,再起動するとそれなりの確率で直ります。しかし,勝手に再起動すると,障害が再現しないことがあり,原因不明で片付けられてしまいます。
    二度と発生しない障害ならいいのですが,この手の障害に限って保守部隊のいないスキを狙ったかのように発生します。
    そこで,保守部隊に確認して,再起動しても問題ないか,再起動する前に取得しておく情報がないか,先に確認しておきます。
    ま,自分のシステムのバグなら,自分で原因追求するだけなので関係ない話ですが。

  4. 原因の調査
    保守部隊に原因の調査を依頼します。自分が解析を依頼された場合は障害解析手順を参考に,どうにかしてください。

  5. 暫定対策の実施
    原因の調査で,不具合箇所の見当はつきます。
    次にOSやプロセスの再起動,縮退運転,待機系への切り替えなど,障害をとりあえず回避する対策を実施します。 ハードウエア障害で代替機がない場合や,システムの基本機能がバグっていた場合は,使用禁止にするしかありません。

  6. 本体策の実施
    調査を依頼した結果として,暫定対策以外にモジュールや,ハードウエアの入れ替えが必要であれば,改めて実施します。

  7. 障害報告書の作成
    ひととおり終わったら,ユーザに障害報告書を持って謝りにいきます。本体策までに時間のかかる場合は,本体策の前にいくこともあります。障害報告書には障害の概要,対応経緯,不良原因,対策などを書きます。


posted by まる at 00:28| Comment(0) | TrackBack(0) | プログラマ Chips | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス: [必須入力]

ホームページアドレス:

コメント:


この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。