ユーザー事例

ブリガムヤング大学

ブリガムヤング大学

ブリガムヤング大学(BYU)の化学・生化学部門は、BYUでも有数の研究部門です。
熱量測定、マクロサイクル、がん治療、クロマトグラフィーなどの研究に力を入れています。
ほとんどの近代的な高等教育機関と同様に、BYUの化学部門の教員と学生は、研究へのアクセスを提供し、課題や授業の提出方法を提供するオンラインシステムに日常的にアクセスしています。
ダウンタイムやパフォーマンスの低下は、イノベーションを推進する能力を直接阻害するため、これらのシステムを常に稼働させておくことは、化学科にとって最も重要なことです。

Sysdig Cloud導入前

BYUの化学・生化学科のシステム管理者であるGarrett Hyde氏は、オープンソースソリューションNagiosを使用していましたが、内部システムを監視するためのより良い方法を探していました。
Nagiosについて、内部システムのサーバ状態を監視するという点では満足していたものの、特定のインシデントが発生した理由についての洞察を得ることが困難でした。
また、内部システムにおける異なるコンポーネント間の相互作用と依存関係を可視化することができませんでした。
このため、ログを調べたり、カーネルのダンプを見直したり、サーバを手動で監視するためにtopコマンドを使ったりと、何時間も遡って手動でトラブルシューティングを行い、事象の再現を待たざるを得ませんでした。
Garrett氏はしばしば、事象の根本原因が何であるかを推測する、ということを余儀なくされ、事象を正しく解析できているだろうことを願うしかない状況でした。
メモリ関連の問題で特にストレスフルだったのは、Webサーバが繰り返しクラッシュすることでした。
この種の事象は、通常、Garrett氏が持つ既存のツールセットを使って診断・修正するのに1日以上かかるもので、彼の行動が問題を解決したのか、それとも時間の経過とともに原因が取り除かれただけなのか、はっきりとしたことはわかりませんでした。
もっと良い方法があるはずだ。

Sysdig Cloudは、勘や推測ではなく、本当の真実をピンポイントで指摘します。これにより、問題のトラブルシューティングをより迅速かつ簡単に行うことができます。

Sysdig Cloudを選択して

Nagiosに代わる製品を評価する際、Garrett氏は次の4つの重要な要件を念頭に置いていました。

1)プロセスレベルの可視性

システム内部で何が起こっているかを深く可視化することは、Garrett氏にとって非常に重要でした。
Nagiosは根本的な原因を明らかにするに至らなかったため、彼が選んだソリューションには、トラブルシューティングの努力を合理化し、自分の環境で実行されているプロセスを正確に表示するためのドリルダウン機能が必要でした。

2)リアルタイムなメトリクスの流れ

Garrett氏にとって重要だったのは、自分の環境で収集されているすべてのメトリクスを、その時点で最新、つまり、リアルタイムに確認できることでした。
これにより、Garrett氏はパフォーマンスのボトルネックを即座に検出して調査し、想定外のダウンタイムを減らすことができるようになりました。

3)積極的な注意喚起

Garrett氏は、システムのパフォーマンスが低下し始めたときに他の誰よりも先に知ることができるようになりたいと考えていました。
サーバのアップダウンを知るだけでは不充分で、システムのパフォーマンスを経時的に把握し、異常なパフォーマンスが観測されたときには自動的にアラートを出す必要がありました。

4)過去データの蓄積

最後に、Garrett氏は、過去のデータを分析して、遡及的なシステムのトラブルシューティングと分析を可能にする必要がありました。
過去のシステムの健全性を調べることができることは、あらゆるモニタリング戦略の重要な要素です。

Garrett氏はSysdig Cloudをインストールして、これらの要件にどのように対応できるかを評価しました。
すぐに、彼はそのデプロイプロセスが非常に迅速かつ簡単であることに気付きました。

インストールの簡単さは10点満点中9点でしょうね...ちなみに、10点は私が何もやる必要がない場合の点数です

Garret氏は驚きを隠せませんでした。

まるで魔法のようでした

全てのサーバにデプロイするのに要した時間はたったの15分で、すぐに価値を実感できたといいます。

Sysdig Cloudを選択する5つの理由:

  1. 1秒単位の粒度のライブデータストリーミング
  2. 過去データの蓄積
  3. プロセスレベルの可視性
  4. 環境全体のメトリクスの自動相関
  5. 簡単な設定とメンテナンス容易性

主なメリット:

  1. より効率的なトラブルシューティング
  2. 積極的なパフォーマンス管理
  3. 環境の全体像を把握できる

Sysdig Cloud導入後

Sysdig Cloudは、Garrett氏が環境のパフォーマンスを積極的に管理するために必要な情報を提供してくれました。
特に、すぐにアクションを起こすための情報が自動的に表面化する、という突出した点において、Garrett氏はSysdig Cloudでのデータの表示方法を高く評価しています。

Sysdig Cloudからの粒度の高いデータストリーミングにより、Garrett氏はインフラストラクチャ内で何が起こっているかをいつでも観察できるシンプルな方法を得ることができました。 彼は、より効果的に追跡するため、追跡している重要な統計情報をカスタム・ダッシュボードに固定しています。
また、Garrett氏はデータストリームを一時停止し、同じ粒度で時間を遡って移動することができます。
これにより、特定のボトルネックの原因となったシステムアクティビティを発見するための遡及的なトラブルシューティングが可能になります。
非常に高度なアラート機能は、環境で異常な行動が検出された瞬間に通知するため、Garrett氏がモニタしている環境で劣化が起きていることを最も早く知ることができます。
Garrett氏がボトルネックを特定できてしまえば、疑わしい特定エリアをドリルダウンするのは非常に簡単です。
システムの健全性に関する精密なビューを見ては特定のコンポーネントを特定する、といった調査を繰り返すことにより、Garrett氏は、根本原因を迅速に切り分けるために必要なドリルダウンのスキルを得ることができます。

Apache がクラッシュした場合、そのマシンのメモリやディスク I/O などのメトリクスを見て、クラッシュに至ったプロセスを分析することができます

と Garrett 氏は述べています。
また、Sysdig Cloudは、すべてのシステムメトリクスを自動的に相関させます。
これにより、Garrettは強力なビルトインビューを使用して経時的なパターンやトレンドを素早く発見し、任意のメトリックを探索し、時系列、トップ10チャート、マップ、またはデータテーブルとして可視化することができます。
サーバ、アプリケーション、ネットワーク、データベースのメトリクスをさまざまな切り口で分析して、すべて同じビューに表示できるようにすることで、Sysdig Cloudはパフォーマンス問題を迅速に解決するために必要なデータを簡単に発見することができます。
Garrett氏による監視とトラブルシューティングのプロセスが大幅に効率化されました。

Sysdig Cloudは、勘や推測とは対照的に、本当の真実を突き止めます

とGarrett氏は述べています。
Web サーバをクラッシュさせていたメモリの問題で、解決には通常 1 日以上かかっていました。 でもSysdig Cloud は、問題を分離し、彼が5 分以内に問題を解決するために必要な情報を提供しました。
その結果、驚異的なことになんと平均解決時間 (MTTR) を 99% も短縮しました。
Sysdig Cloud を購入して以来、彼の環境ではこの問題が再発することはありませんでした。
これは、サーバがクラッシュする前に予想外のメモリスパイクが発生することを事前に通知されていたことと、リアルタイムで是正措置を検証できる機能を持っていたからです。
過去には、Garrettは日常的に何時間もかけてNagiosのデプロイメントを設定していました。
それもSysdig Cloud のおかげで、彼はその設定要件を事実上完全に排除することができました。

Sysdigエージェントの定期的な更新だけで、それだけだ

とGarrett氏は述べています。

カテゴリー

ご質問・お問い合わせはこちら

top