NETSCOUTと各監視ツールの関係と役割分担
今回はSCSK株式会社シニアエンジニアの山科 正幸氏にNETSCOUTと他の監視ツールとの違いや、システム運用・障害対応とどのように関わっているかについて聞いてみました。
――NETSCOUTの役割を教えてください。
NETSCOUTは、ネットワーク内の通信をキャプチャすることで、ユーザーがどのような経路で通信しているのか、どのようなサービスを利用しているのか、ネットワーク全体を俯瞰して監視することができます。
そのため、その通信データを見れば、どこに問題の原因がありそうかというのを大まかに知ることができます。
例えば、AさんとBさんが同じオフィスで働いているにも関わらず、Bさんの通信が遅く、その原因を知りたいとします。
この時の通信データの流れを確認することで、サーバのリソースに問題があったのか、ネットワーク機器に問題があったのか、BさんのPC自体に問題があったのか、といった具合に、ある程度の見当をつけることができます。
つまり、NETSCOUTは、障害や通信の遅延などが起きたときに、どこで何をすればいいのという方針をいち早く明確にするのに役立つ製品だと言えます。
――NETSCOUTと、一般的なキャプチャ製品との違いを教えてください。
一般的なキャプチャ製品は、データを取得することに特化していることがほとんどです。
いわゆる監視カメラのように、とりあえずデータを取得して蓄積しているだけという状態なので、問題が起きたときに膨大なデータの中から該当の箇所を探し出すのはなかなか大変です。
一方、NETSCOUTは、データを取得しながら、どこで、何があったかという情報をリアルタイムで分析し、タグを付けて統計データとして保存されており、グラフによる可視化もしやすくなっています。
そのため、該当期間のデータを冒頭から見なくても、タグの情報からその箇所を探し出し、いち早くデータにたどり着くことができますので、障害の復旧時間を早めることが可能です。
――障害の復旧時間を早められると言いますが、具体的にどういったことができますか?
まず、システム障害から復旧にかかった時間(MTTR)は、障害を検知するまでの時間(MTTI)、原因を特定するまでの時間(MTTK)、復旧作業にかかった時間(MTTF)といった内訳に区切られます。
各工程にかかる時間が長くなるほど、ユーザーに与える影響やビジネスインパクトは比例して大きくなりますので、なるべく短時間で原因を特定し、復旧作業に移っていかなくてはなりません。


通常、システムの調子が悪いときや障害が発生したときに、システム管理者は各監視ツールからアラート通知を受け、原因の特定と復旧作業に乗り出します。どこに原因があるのかは監視ツールごとに、しらみつぶしに調査することになりますので、これでは時間も労力もかかってしまいます。
NETSCOUTは、通常時と比べて通信の流れに異常があると検知した段階で通知し、すでに解析されたデータを見ることができます。そのため、早い段階で「このあたりに原因がありそうだな」という見当を付けられるため、原因特定にかかる時間を短縮できます。その結果、深刻な障害を未然に防ぎ、障害からの早期復旧を可能とします。
――NETSCOUTがあればほかの監視はいらないのでしょうか?
NETSCOUTと各監視ツールとはそもそもの役割が異なります。まず、監視ツールの種類を確認してみましょう。
<監視の種類とその内容>
監視の種類 | 監視対象 |
---|---|
アプリケーション監視 | アプリケーションの性能や稼働状況 |
システムリソース監視 | サーバやネットワーク機器のCPUやメモリ、ストレージ、ディスクの使用率 |
ネットワーク監視 | ネットワークの使用率や遅延や輻輳、通信経路の監視 |
デバイス監視 | PCやスマートフォン等のデバイスの利用状況 |
これらの監視ツールは、それぞれの監視対象の機器やシステム、サービスに特化して作られており、全体を俯瞰して監視することができません。
一方、NETSCOUTはキャプチャした通信からネットワーク全体を俯瞰して監視することができるため、障害発生時にはどこに問題があるのかを素早く判断することができます。
つまり、「NETSCOUTがあれば他の監視ツールがいらない」というものではなく、NETSCOUTは各監視ツールを補完するツールとして、加えて各システムや監視対象に特化した監視ツールを選択する必要があります。
そもそも監視で問題となるのは、ユーザーがやりたいことができていないことにあり、まずは何をしたいのか、それには何の監視が必要なのかをまずは整理していきましょう。
――最後にコメントをお願いします。
障害は、ひとつが原因となっているケースもあれば、ひとつひとつは大したものではなくとも、複数の原因が重なって障害につながっていることがあります。そうした場合には、特定の監視ツールだけではどこが主な原因であるか特定できないこともあります。
その糸口を見つけるためのツールとしてNETSCOUTを活用し、必要な処置は各監視ツールが持つ情報を元に原因究明を行い、具体的な対策をするのが効率的で、望ましい形です。
複数のベンダーが関わっているシステムの場合はよく、どこに原因があるのかをなかなか突き止められず、対処に時間がかかってしまうということがあります。
NETSCOUTはこうした時にも原因箇所と思われる部分のデータをすぐに特定し、相手にエビデンスとして提出できます。ベンダーへの説得力もありますし、ベンダーもどう対処すればいいかの判断が早くなりますので、システム障害からの復旧を早めることができます。
対象となるシステムに必要な監視ツールとNETSCOUTの共存によって、より安定したシステム運用の実現を目指すことができます。ご興味のある方はぜひお声がけください。