障害管理
■障害管理の対象
- ハードウェア
- ソフトウェア
- ネットワーク
- アプリケーションプログラム
■障害管理の方法
- 障害の発生日時や発生場所は、原因追求や影響調査で必要になる為、把握しておく。
- どのような現象が発生しているのかを連絡者から詳細に聞き出す。
- エラーメッセージやエラーログ、データの状態等からシステムの状況を把握し、いつ、どこに、どのような影響があるのか確認する。
- 原因を特定し、業務が速やかに再開できるよう、暫定対応を施す。
- 本来あるべき状態になるよう、恒久対応を施す。
- 同様の障害を防止する為に関連箇所についても対応する。
■障害の原因
- ハードウェア障害
- ソフトウェアのバグ
- トランザクション量増加によるレスポンス低下
- 設計ミス
- プログラムミス
- プログラム改修によるデグレーション
- 入力データチェック漏れ
- テスト不十分
- プログラムバージョン不整合
- 環境設定ミス
- データの移行漏れ
- 移行手順ミス
- ジョブ運行制御のスケジュール登録ミス
- オペレーションミス
- ディスク容量オーバー
- データベースの制限オーバー
- ロック待ち
- デッドロック
■障害予防策
- 障害記録分析と改善対応
- 障害対策マニュアル
- 障害復旧手順書
- 障害復旧リハーサル
- 定期予防保守(ハードウェアの点検・ディスク容量・データベース容量等の定期チェック)
- ログの定期チェック
- 処理時間の定点観測
- セキュリティチェック
- 定期予防保守報告
- アプリケーションのバックアップ
- データのバックアップ
- クラスタリング構成
- ウィルス対策
- ソフトウェアのパッチ適用
■障害対応
- 関係者(利用者・管理者・経営者等)への運用停止連絡
- 障害状況(障害発生日時・障害発生場所・通報者・対象システム名・対象媒体・現象・影響範囲・環境・オペレーション等)の把握
- 被害状況(業務への影響等)の確認
- 被害拡大防止措置
- 関係者(利用者・管理者・経営者等)への中間報告
- 原因調査
- 暫定対応の検討と実施
- 関係者(利用者・管理者・経営者等)への運用再開連絡
- 恒久対応の検討と実施
- 再発防止策の検討と実施
- 障害記録
- 関係者(利用者・管理者・経営者等)への最終報告
■障害記録
- 障害管理番号
- 障害件名
- 障害区分(ハードウェア・ソフトウェア・ネットワーク・アプリケーション・運用・操作・他システム・災害等)
- 障害発生日時
- 障害発生場所
- 通報者(部門・氏名)
- 対象業務名
- 対象システム名
- 現象
- 操作手順
- 影響範囲(業務・顧客・部門・損害・損失)
- 対応者
- 対応人数
- 対応期間(開始時刻・終了時刻)
- 対応工数
- 直接原因
- 間接原因
- 根本原因
- 暫定対応
- 類似・周辺箇所への対応
- 恒久対応
- 承認
- 完了日
位置:
トップ >
システム管理 > 障害管理
通読:
前頁 |
次頁
Page Views