• 運用管理
  • インタビュー
  • 導入事例
  • データ解析

統合ログ管理ツールで実現する
ログを活用したシステム運用管理の効率化


                                                                    splunk3_article.jpg

あらゆる業務のデジタル化が進む今、「ログ」の活用に注目が集まっています。業務システムを構成するサーバやストレージ、ネットワーク機器などのハードウェアやOS、その上で動作するアプリケーションに至るまで、さまざまなログが記録されています。しかし、これらシステムから出力される多種多様なフォーマットで、且つ膨大な量のログを分析し、効果的に活用することは至難の業です。どのようにすれば、効率良く効果的な活用ができるのでしょうか。

今回は、統合ログ管理ツールの活用がお勧めである理由について解説します。また、自社のストレージシステムの稼働状況を可視化し、グローバル規模での顧客サポートを実現しているクラウディアン株式会社(以下、クラウディアン社)の取組みをご紹介しながら、具体的に解説します。

この記事のポイント

  1. 複数システムのログを横断的に取得・分析するには「統合ログ管理ツール」が最適
  2. Splunkの導入でいつでもログデータを活用できる環境を実現したクラウディアン社
  3. Splunkが実現できること...「検索・検知」「分析・可視化」「レポーティング」
  4. コンサルテーションから、設計・構築・導入、運用までSCSKが全面的に支援

複数システムのログを横断的に取得・分析するには「統合ログ管理ツール」が最適

一口にログといってもさまざまな種類があり、システムやアプリケーションで生じた現象・動作を記録するイベントログや、デバイス内の操作を記録した操作ログ、システム間の通信状況を記録した通信ログ、システム内で発生したエラーを記録したエラーログなど多岐にわたります。

さらに、ログを収集、検索、分析する方法もさまざまです。最も原始的な手法はスクリプト(プログラム)を書き、対象のシステムやアプリケーションなどからログを収集し、自作のログ分析アプリケーションやExcelなどを用いて分析するやり方です。しかしこれは、複数のシステムログを管理するのに向いているとは言えません。ほかには、収集、検索、分析の機能を持つオープンソースソフトウェア(OSS)を組み合わせる方法もありますが、その利用には相応の知識を備えた技術者が必須です。

複数のシステムログを横断的に取得して分析するなら、統合ログ管理ツールを利用するのが最も効率的でしょう。その代表的な製品の1つに「Splunk」があります。「Splunk」は、物理/仮想の環境を問わず、あらゆるITシステムから生成されるログを収集しインデックス化することで、リアルタイムな検索、分析、可視化を可能にします。

Splunkの導入でいつでもログデータを活用できる環境を実現したクラウディアン社

ここからは、Splunkを導入することで自社のストレージシステムの稼働状況を可視化し、グローバル規模での顧客サポートを実現したクラウディアン社の取組みをご紹介します。同社は日本で創業し、現在はシリコンバレーに本社を置くオブジェクトストレージベンダーです。同社の主力製品であるスケールアウト型オブジェクトストレージ製品「CLOUDIAN HYPERSTORE」は、国内外の大手クラウドサービスや、IT企業のストレージシステムとして採用されており、海外企業を中心に約600社の導入実績があります。

全世界でビジネスを展開する同社の場合、トラブルシューティングなどの保守サポートはリモート対応が基本で、ストレージシステムやハードウェアにまつわるログは、一元的に集約しサポートチームが分析しています。以前は自社で開発したアプリケーションを使ってログを収集、分析していましたが、集めたログは膨大な量であり、十分な活用ができていませんでした。また、独自のログ分析アプリケーションの運用、管理は担当者の負荷が大きく、また属人化も進んでいました。そこで同社は、担当者が本来注力すべき業務へ集中できるよう、評価が高く導入実績も多い統合ログ管理ツールの導入を検討することにしました。

  • 導入にあたって同社が要件としたのは、標準機能であらゆるログを分析できることに加え、ログを蓄積するストレージがスケールアウトできることでした。「当社の場合、世界中に展開するストレージシステムからログを取得するため、1日あたりのデータ量が数百GBにものぼり、今後顧客が増えればさらに増加します。それゆえストレージのスケーラビリティが重要だったのですが、Splunkはこの要件を満たしていました。」
    (グローバル テクニカル サポート バイス プレジデント 後藤哲明氏)
  • グローバル テクニカル サポート バイス プレジデント 後藤哲明氏

同社はSplunkを採用することに決め、導入のパートナーにSCSKを指名しました。両社は2019年2月から打ち合わせを始め、PoCを実施。その後、PoCで発生した問題点を改善し、2019年11月より運用を本格開始しています。

  • システムの構築時には、世界中から集まるログを1日1回、短時間に読み込ませるための工夫を凝らしました。そして運用の開始後は、グローバル環境でユーザーの利用を促進するために、自社内の分析環境の整備に取り組みました。具体的には、操作マニュアルやログを検索するためのクエリ、可視化するためのダッシュボードなどを作成しています。「ログが収集できても、ユーザーがすぐに使いこなせるわけではありません。まずは欲しいデータが検索できるよう操作マニュアルを作成しました。PoCの際に作成した、検索クエリやダッシュボードをもとに現場のユーザーからのフィードバックをもらい改善を重ねました。」
    (グローバル テクニカル サポート プリンシパル サポート エンジニア 吉川浩平氏)
  • グローバル テクニカル サポート プリンシパル サポート エンジニア 吉川浩平氏
  • クラウディアン社は世界中にサービスを展開しているストレージシステムのログ(ストレージI/O、CPU使用率、HDDの容量など)を1日に1回取得し、Splunkの高速ストレージ上に蓄積しています。「直近のデータSplunkの高速ストレージ上に保存し、1週間経ったデータは検索頻度が低くなるため、自動的にリモートストレージへ保存する機能を使って当社のオブジェクトストレージ上に保存しています。これにより、ログは無制限に保存・検索することができるようになり、同時にストレージコストも軽減しています。」
    (グローバル テクニカル サポート プリンシパル サポート エンジニア 栗原傑氏)
  • グローバル テクニカル サポート プリンシパル サポート エンジニア 栗原傑氏

ログを可視化する仕組みがすべて整った結果、クラウディアン社が課題と捉えていた十分にデータが活用できていない状態や、運用の属人化はすべて解決されました。現在は、担当者はいつでもすべての顧客のストレージシステムの状態を確認することができます。また、Splunkは蓄積するログ量とコストが比例する仕組みのため、クラウディアン社では毎日大量に発生するログのうち、利用頻度が低いものはリモートストレージへ保存することで多大なコストをかけることなく運用しているといいます。

現在クラウディアン社では、機械学習を用いたデータ分析を可能にするSplunkのMLTK(Machine Learning Toolkit)の機能を活用し、ハードウェアの故障を事前に予知することに取り組んでおり、今後はサーバやアプリケーションまで範囲を拡大して行く予定です。また、Splunkから取り出したデータをSalesforceやSlackなどと連携し、担当者や顧客にアラートを送ることも検討しています。


図:Splunkのダッシュボード画面

図:Splunkのダッシュボード画面

Splunkが実現できること…「検索・検知」「分析・可視化」「レポーティング」

クラウディアン社が導入したSplunkには「検索・検知」、「分析・可視化」、「レポーティング」の3つの機能があり、それぞれ以下のような特徴があります。

●検索・検知
膨大なマシンデータの中から必要な情報を高速にピックアップできます。検索したい要素は複合的に組み合わせることも可能です。検索パターンを保存して定期的に実行し、結果によってアラート通知を行うこともできます。検索結果は、ドリルダウンして掘り下げたり、不要なデータを排除し本当に必要なものだけを抽出したりすることも可能です。

●分析・可視化
検索結果からグラフや表を作成し、データから想定される傾向の分析、予兆を見ることができます。相関分析により複数のシステムのデータを横断的に関連づけ、一見無関係なイベントから価値ある情報を引き出すことが可能です。

●レポーティング
分析した結果を簡単にレポート化することができ、結果をPDFファイルにて定期的に送信する機能もあります。また、複数の分析レポートをまとめ、グラフィカルでインタラクティブなダッシュボードを作成することも可能です。マルチテナント機能により、ユーザーごとに利用できるダッシュボード画面を設定することもできます。

ITシステムの運用においては、すべてのシステムのログを高速かつ簡易的に検索することで、迅速に障害の原因を特定することが可能になります。システム変更にともなう障害発生時も、変更箇所を簡単に特定することができ、システムログを取得しその変化を分析することで、障害に結び付く予兆を検知することもできます。システムの運用担当者が属人化しているケースでは、運用状況の可視化および運用ノウハウのテンプレート化を行うことで、運用スキルの平準化も可能です。また、アプリケーションの管理においても、すべてのログを一元的に管理し可視化することで、パフォーマンスのボトルネック箇所の特定が容易となり、傾向分析を行うことができます。アプリケーションの障害やバージョンアップによる予期せぬトラブルにも対応できるので、システム復旧時間の短縮にも貢献します。

コンサルテーションから、設計・構築・導入、運用までSCSKが全面的に支援

クラウディアン社のSplunk導入に際しては、SCSKがPoCの実施から課題解決、要件定義、設計、構築、運用開始後のQAサポートまで、一貫した支援を行いました。

SCSKは2012年からSplunkのお客様向け技術サポートに取り組んでおり、導入においてもコンサルテーション、設計・構築・導入サービス、保守・運用支援等を実施し、既に国内で100社以上のお客様をサポートしています。また、2020年には「Splunk 2020 APAC Sales Partner of the Year」を受賞し、APACで最もSplunkを販売したパートナーとして評価されました。さらに、SCSKにはSplunk社認定の資格を保有したエンジニアが在籍しており、2018年にはSCSKのエンジニアがアジアパシフィックでのハッカソンイベントで優勝しています。SCSKでは、Splunk製品導入に関するお問い合わせ窓口を開設しておりますので、ログを活用したシステム運用管理の効率化を目指すお客様は、お気軽にご相談ください。

最新情報などをメールでお届けします。
メールマガジン登録