コラム/技術的な情報

ネットワーク監視が不十分な組織のリスクとは(1)

障害発生時の復旧の長期化、ステークホルダーへの原因報告

最近の障害対応事情

 ネットワーク上の障害発生において、運用側への伝達の遅れや、認識、対応の遅れで問題が重大化するといった事例は過去にも多くありましたが、近年では特に運用体制が整備されている中での課題も浮き彫りになっています。
 障害発生を認識しても、多くの部門・担当範囲が複雑に絡み合うネットワーク構成において、部門担当間のコミュニケーションを含め、原因究明に時間を要し、復旧が長期化するケースや、時間の経過、やむを得ない再起動等で障害が自然解消し、結局原因を解明できず、再発におびえながら運用を続けるケースも多いようです。

経営視点での障害対応と報告

 こういった場合、ステークホルダーに対しても「原因不明」もしくは「おおむねの原因」という報告になり、調査時間を要した割には、再発リスクを払拭する具体的対策も不十分となるケースが多く、もちろん信頼回復にも影響を与えます。
 障害に対する原因追及、復旧は運用責任者にとって早急に対応すべき業務です。一方、経営からの観点で考えた場合、障害時の原因解明、迅速復旧、再発防止策を含めた報告等は、ステークホルダーに対する信頼に直結する課題であり、それらの課題解決があいまいなまま積み重なれば、事業継続の問題に発展することも考えられます。

障害復旧の課題と解決策

 属人化された専任の担当者が経験による原因究明を行い、定性的な想定原因のみを報告して調査終了となるプロセスはDX推進の観点からも見直すべき段階に来ています。
 日頃からのネットワーク監視はもちろん、それでも起こりうる障害には、早期原因の切り分けが必要です。重要なのはその業務を「属人化させない」ことにあります。さらに詳細原因の解明にはデータを解析する技術が必要であり、そのフェーズでは分かりにくいデータが「人間が容易に、定量的に理解できる」データに可視化されていることが不可欠です。

障害復旧の課題と解決策

原因解明の非属人化・定量化がもたらすバリュー

 早期に原因が解明できれば、復旧までの時間を短縮することはもちろん、人的負担の分散、コスト削減も見込めます。業務を非属人化し、組織で、定量的に原因解明ができれば論理的な再発防止策の策定が可能となり、キャパシティ管理も大きく改善されます。論理的対策と早期報告は、ステークホルダーに対してもさらなる信頼というバリューアップにつながるのではないでしょうか。
 復旧短縮による「コスト削減」については、次回以降お伝えいたします。

製品に関するご質問・資料請求はこちらまで

03-5859-3034 平日 9:30 ~ 17:00(年末年始、当社指定休業日を除く)