システム障害の対応フロー! 一次対応や対策完了時に求められることは?

  • 障害
  • 対応
2023.07.14
システム開発でよくある課題と対応策! 複雑化への対処法とは

システムを運用している限り、障害発生を完全には防ぎきれません。この記事では、障害発生を想定した事前準備の方法から、障害発生時の対応方法まで、一般的なフローを解説します。また、システム障害の被害を最小限に抑えるために、おすすめのサービスも紹介しますので、ぜひ参考にしてみてください。

障害対応の事前準備

システム運用において、障害発生のリスクは完全に回避できないものです。IT化が進んでいる昨今、多くのシステムを連携・統合させている企業も少なくありません。そうした企業は特に、ひとつの障害の影響が拡大しやすい状況にあると考えられます。

障害が起きてからその都度対応する方法では、ユーザーに不便さを強いてしまいます。また障害対応の遅れは、場合によっては顧客や社会からの信頼低下につながります。
そうしたリスクを回避するためには、「特定の障害に対してどのような対策を打っていくのか」を事前に準備しておくことが大切です。以下では、事前準備に欠かせない2つのポイントを紹介します。

障害対応フローを設計する

障害が実際に起きたときも、対応を開始する箇所が明確であったり、対応プロセスが順序立てて用意されていたりすれば、対処の遅れを防止できます。つまり対応フローを定めておくことが重要です。

フロー設定の下準備として、まずはシステム構成を確認します。ネットワーク図、設定情報、グループポリシー、ライセンス情報、データセンタ情報などを明確化しましょう。システム構成の全体像を見つつ、発生が予測される障害をレベル別に整理します。

そして障害レベルに応じて、対処すべき構成箇所と対処方法を明記します。これを繰り返すことで、レベル別に対応フローを設計してください。

フロー内容としては、障害の状況をどのように確認・判断するのか、復旧に向けてどう取り組んでいくのかを決めておきます。併せて、障害発生時や復旧時の連絡先、連絡方法、対応時間なども規定しておきましょう。加えて、過去の障害に関するデータを収集し、今後の再発防止策を検討することも有効です。

障害対応マニュアルを作成する

障害対応マニュアルを作成する

「障害対応マニュアル」とは、自社のシステムに不具合や故障などが発生し、普段どおり使えない状態に陥ったことを想定し、不具合の原因や解決策を記載したものです。このマニュアル作成も、障害対応の事前準備として欠かせません。

システム障害に際しては、少しでも早く業務やサービスを再開できるよう、効率的に復旧させることが求められます。そのためにはスピーディに障害原因を突き止め、対応策を講じていく必要があります。

ベテランのスタッフなら、マニュアルが手元になくても適切に対処できる可能性があります。しかし、ベテランスタッフが不在時に障害が発生しないとは限りません。そのため、誰が担当しても適切に対処できるよう、マニュアルには最新の情報に基づいた内容をわかりやすく記載します。加えて、平常時の運用作業スケジュール、障害発生時の対応手順、システム障害を検知した際の連絡先などを盛り込んでおくのがおすすめです。

障害対応のフローと各段階で求められること

システム障害に対応する際には、フローの全体像を把握したうえで、各フェーズについても理解しておくことが大切です。ここでは6つの段階に分けてどのようなことをすべきなのか、ポイントを解説します。

障害検知後、一次対応として影響範囲や深刻度を確認する

ユーザーから障害が疑われる連絡を受けたり、システム監視ソフトを導入していて異常を検知したりした場合は、迅速に初動対応に入ります。この初動をいかにスムーズに行えるかが、その後の対応を左右します。

業務やサービスでどれほどの影響が認められるのか、あるいは、ほかのシステムに被害が広がっていないかなどを確認します。これらの点から、障害原因が単一的な要素に収まっているか、複数の要素が絡み合ってのものか、などを判断していきます。

ただ、このフェーズでは、大まかな障害内容を確認するだけにとどめておきまましょう。次フェーズへスピーディに進んでいくためです。

ここで確認すべき項目は以下のようなものを押さえておけば問題ありません。
・発生時刻
・障害が発生している対象
・発生している事象
・障害レベル(影響範囲など)
・発生範囲(ユーザー単位なのか全体なのか)など

各部署にエスカレーションする

発生したシステム障害についてある程度チェックできたなら、社内の各部署へ連絡するフェーズに移りましょう。事前に設定しておいた「障害レベルごとの連絡先」へ適宜アナウンスします。もし自社が外部の顧客へ提供しているサービスに影響が出ていれば、ユーザーに対して早急に知らせなければなりません。

また障害が関連する部署に対して、どのくらいの期間でサービス復旧が可能かについて、その目途を伝えておくことが必要です。障害原因や対応状況などで新たに開示すべき事柄が生じたら、きめ細かに情報共有してください。

障害の原因を突き止める

障害の原因を突き止める

近年の企業には、さまざまなシステムを複雑に組み合わせている環境が多く見られます。そのため障害発生時にも、障害原因をなかなか突き止められないケースも生じます。

障害対応のプロセスを開始するためには、人為的に引き起こされた障害なのか、自然発生的に起きたものなのかを確認しなくてはなりません。もし人の操作によるミスが原因であるなら、障害発生時の状況はどうであったのか・どんな操作を施したのか、などについて詳しく整理して把握する必要があります。

したがって障害対応を行うエンジニアには、障害発生時の状況をできるだけ的確にヒアリングしていくスキルが不可欠です。突発的な事態に際しても、当該ユーザーや関係スタッフと円滑にコミュニケーションを取れる冷静さも必要です。相手が障害発生について責任を感じていたり、狼狽していたりする状況でも、的確に情報を引き出せなくてはなりません。

復旧作業を行う

原因を突き止めたなら、それに応じた復旧プロセスを進めていきます。ここでよく問題になるのが「どのレベルまで復旧させるか」といった点です。
システムを停止しなければならないレベルの障害であれば、ひとまず業務を再開できるところまで最低限の応急処置を施すか、代替となる手段を確保することが基本的な復旧方針です。これによりサービスを再開したあとで、細部までチェックしていきます。並行して、完全復旧へ向けた対策を検討したり、その対応について各所へ連絡したりしつつ、プロセスを進めます。

恒久的な再発防止対策を行う

システムの復旧作業が一段落すれば、また同じ障害が起きる可能性(再現可能性)を精査していきます。再現可能性があると判断されたなら、障害の根本的な原因を取り除くことで、恒久的な再発防止策を検討していくことも大切です。システム障害はゼロにならないものの、そのリスクをなるべく低減させておくことで、結果的に、障害対応にかかる時間・手間・コストを減らせます。

対応完了: 報告書を作成する

障害対応の最終フェーズは、報告書を作成することが一般的です。内容としては、まず障害の概要から、細かな事象について時系列でまとめます。「障害が起きたことでどのような範囲に、どれほど影響を与えたのか」を記載し、また「どんな暫定対応を実施したか」なども記載します。障害の原因が人為的ミスの場合は、再発防止に向けた取り組みを示すのもポイントです。

報告書が完成したら、社内の関係者へ完了報告を行います。実際に起きた事例の報告書として社内で共有し、ノウハウやナレッジを蓄積可能です。これらは例えば、障害対応用の人材を育成する際にも役立てられます。

システム障害への対応で求められることとは?

対策を万全にしても、システム障害の発生可能性をゼロにはできません。したがって、障害発生を前提に対応策を固めておくことが重要です。「障害時も、業務やサービスを停止しなくて済むようにすること」を目標に、対応策を検討しましょう。

また適切な復旧には、初動対応の的確さ・迅速さがカギです。障害が疑われる事象が検知された段階で、すぐに初動対応を開始し、自社の提供サービスへの影響範囲などを把握します。さらに関係各所へアナウンスするなど、被害を最小限にとどめる取り組みを実施します。このように、初動対応を詳細かつ明確に決めておくことも大切です。

障害対応フロー整備の注意点

システム障害への対応フロー作成時には、次のようなポイントを守ることが推奨されます。

まず、担当メンバーでロールプレイを繰り返しておくことです。対応マニュアルを作成しても、それが実際に使えるものかどうか、不足がないかは、机上だけではわかりません。メンバーがそれぞれ違う役割で訓練を行うことで、障害に対応できるスキルを磨けるとともに、マニュアルをより実践的な内容に改善していくことが可能です。

また対応マニュアルは、年に1〜2回定期更新を施しましょう。先に挙げたロールプレイで見つかった改善点なども、こうした定期更新時などにマニュアルへ反映します。システムがバージョンアップした際などには、マニュアルの関連個所も更新するよう心がけてください。基本的には、マニュアルは常に最新の状態にしておけるよう努めてください。

システム障害におすすめの対策

システム障害におすすめの対策

より安定的な障害対策を整えるため、次のような点も検討しておく価値があります。

システム運用監視ツールを導入する

システム障害はいつ起きるか予測できません。そのため24時間常時監視してくれるツールを導入しておくと安心です。
ツールはシステムの稼働状況を可視化し、異常を感知した段階ですぐに知らせます。障害の被害が拡大する前に対処しやすい状況を整備しておけます。被害拡大の防止策として有効なため、復旧作業における時間・手間・コストの削減につながり、関連スタッフの負担も軽減されます。

今日、さまざまなシステム運用監視ツールがリリースされています。中でもおすすめはSaaS型の「OpsRamp」です。近年ますます複雑化し、管理が困難になっているシステムについて、既存管理システムとの連携・リソースの自動検出・監視・管理・ 可視化・自動化を徹底して行います。ユーザーのシステム環境を一元的に管理することで、運用効率化も実現できるのも魅力です。

アウトソーシングの運用監視サービスを利用する

運用監視サービスを外部へ委託してしまうことも一案です。経験豊富な専門エンジニアに必要な対応を任せられるほか、依頼時の契約についても自社のリソースに応じて調整できます。アウトソーシングに業務を任せる分、自社内での負担が軽減され、自社にとってのコア業務に対する作業効率を高めることにもつながります。

特におすすすめなのはY2Sの運用監視ソリューションです。24時間365日、有人でのシステム監視を行い、異常が発生した際には迅速に対応可能です。また、障害対応フローなどのドキュメント類も作成・管理するため、スムーズなシステム運用を継続的に実現できます。要望に応じた設定変更なども柔軟に対応するほか、定例会などを通して課題・対策をクライアント企業と共有します。

業界を問わず導入実績も豊富です。ポータルサイトの運用で遅延が発生していた案件では、しっかりヒアリングを実施したうえでサイト構成を整理し、パフォーマンス調査、適切な運用監視サービスの提供などを行いました。その結果、ボトルネックとなっていた箇所を特定し、スムーズな運用を可能にしました。
サービスの詳細は、下記でご確認いただけます。

運用監視サービス 株式会社Y2S

まとめ

企業が導入・運用しているシステムに障害が起きた際には、障害レベルを確認したり各所へ連絡したりと、多様な対応プロセスを適切に進める必要があります。したがって障害レベルの策定やフロー設計、マニュアル作成など、事前準備を抜かりなく実施しておくことが大切です。

テクニカルな面だけではなく、ビジネスへの影響も十分に考え、障害対応策を固めておきましょう。具体的には、運用監視業務について、ツールやアウトソーシングを利用することで業務効率化やコスト削減を図ることが有効です。OpsRampといった運用監視システムや、Y2Sのアウトソーシング運用監視サービスの導入もご検討ください。