ユーザー事例

JW Player

JW Player

会社詳細

世界最大の独立系動画プラットフォーム

挑戦

  • Kubernetes環境の可視性の欠如
  • Kubernetes移行のための低遅延監視の必要性
  • 問題のトラブルシューティングの時間

メリット

  • Kubernetesへの移行時に価値を生み出すまでの時間を短縮
  • 環境の健全性を理解することで、より迅速なイノベーションを実現
  • パフォーマンスと可用性を最大化
  • トラブルシューティングを加速

インフラストラクチャ

Amazon Web Services

オーケストレーション

Kubernetes

概要

JW Playerは世界最大の独立系動画プラットフォームです。世界に10億人以上のユニークユーザーを抱えるJW Playerは、ウェブ上の動画の10%以上を運営しており、1日に数テラバイトのデータ処理を必要としています。

イノベーションをより早く実現するために、SaaSベースの同社は、クラウド上で稼働するモノリシックアプリケーションから、AWSクラウドでホストされるKubernetesにデプロイされたマイクロサービスへと移行しました。現在、同社はアカウント全体で1,000ノード、100サービスを稼働させています。

挑戦

JW Playerのすべてのサービスの移行は大規模な作業でした。準備のために、エンジニアリングチームは非常に効率的なスタックを構築しましたが、それがどのように機能しているか可視化はできていませんでした。可視化ができていないことは、何か問題が起こった際に原因を調査する上での支障となっていました。そこでチームは、サービスレベル目標(SLO)をより満たすために、監視性を改善するための取り組みを行いました。取り組みの最終目標には、エラーをより早くキャッチし、回復までの平均故障時間を短縮し、アプリケーション監視の重要な側面を自動化することが含まれていました。

すぐに使えるものがすべて揃っていることが、Kubernetes監視システムとしてSysdigに最初に惹かれた理由であり、また、SysdigはDevOpsワークフローにセキュリティを組み込むこともできます

メリット

Sysdigを使用することで、JW Player DevOpsチームはサービスパフォーマンスを可視化し、Kubernetesを使用してインフラストラクチャとアプリケーション層全体で何を測定すべきかについてのガイダンスを得ることができました。JW Playerの最高技術責任者であるKamil Sindi氏が説明しているように、

すぐに使えるものがすべて揃っていることが、Kubernetes監視システムとしてSysdigに最初に惹かれた理由であり、また、SysdigはDevOpsワークフローにセキュリティを組み込むこともできます。

業務負担を16%削減

JW Player は、独自のオブザーバビリティソリューションの構築を検討し、構築と購入のメリットを比較した大規模な ROI 分析を実施しました。同社は、Sysdig から提供される即時利用可能なサービスを自社で構築する場合には、1 人の開発者が丸 1 年、さらに毎月のメンテナンスが必要と見積もっていました。

Sysdigには我々が構築したいものがあった

とSindiは述べています。

SysdigはBerkeley Packet Filter (BPF)を使用しており、セットアップが非常に簡単で、Kubernetesに関する深い知識とサポートを備えたコンテナファーストの会社です。Sysdigのおかげで、GrafanaとPrometheusを使うことを選ばずに済みました。

当時、当社には6人の開発者がいましたが、Sysdigを導入することで、6人中1人の工数を確保することができたのは大きなことで、開発者は他の高価値なプロジェクトに集中することができました。
その上、Sysdigにより、1年の開発期間を確保する必要もなくなりました。多くの時間を投資することなく、クラスタ全体の観測が可能になりました。私がSysdigをお勧めする理由は、これらの強力なメトリクスをすぐに利用できるからです。何を確認すべきかを考える必要はありません。Sysdig はあなたが注意すべきことを表示してくれます。

Kubernetesへのマイグレーションに重要なこと

JW Playerが重要なサービスをKubernetesに移行し始めたとき、エラーを起こす余地はなく、そうでなければ顧客に影響が出ることになりました。Sysdigが収集したデータは、10秒ごとに保存され、報告されます。JW PlayerのKubernetesへの移行中、この瞬時のデータは非常に貴重なものでした。
Sindi氏の説明によると、

c1.png

トラフィックをゆっくりと移行している間に、何か問題があった場合は即座に確認できるように、瞬時のモニタリング結果が必要でした。私たちはこれまでに、カスケード障害やThundering Herds障害のような事象に遭遇したことが何度かありました。Sysdig は、何が変化しているのかを迅速に把握し、適応できるようにするために非常に重要な役割を果たしてくれました。あるときには、試行錯誤したこともあり、解決のために微調整を行いました。また、Kubernetesの環境とスタンドアロンの環境との違いをテストすることもできました。例えば、HTTPの負荷分散やTCPの負荷分散についての考え方は異なります。Sysdigは、パフォーマンスと可用性の目標を達成するために必要なレベルの観測性を提供してくれており、非常に役立ちました。

あるソフトウェアの中で、特にデリケートなものがありました。最初の 3 回の移動の試みでは、テスト環境で問題が発生しました。コンテナがダウンしたり、膨大したりして、コンテンツを取られてしまいました。他のツールからのメトリクスでは、このエラーの理由はわかりませんでした。しかし、3回目の試行の後、DevOpsチームはSysdigのキャプチャを設定して、次回コンテナの問題が発生したときのシステムアクティビティをすべて記録しました。システムのキャプチャ情報から、CPU接続がバックグラウンドで積み重なっていることがわかり、JW Playerチームはコードの設定ミスを修正しました。修正されると、ソフトウェアが移動し、顧客に影響を与えることなく正常に動作しました。

Sysdig は、移行する際の問題を検出する上で非常に重要な役割を果たしてくれました。

とSindi氏は述べています。

深い観察力と多層トラブルシューティングにより、より迅速なイノベーションを実現

ここ数年、JW Playerは2週間ごとのコードリリースから、1日に数回のコードリリースへと移行してきました。Sindi氏によると、

私たちはスプリント、アジリティのアプローチをとっており、その重要な部分を占めるのが観察性です。Kubernetesスタック全体にわたる豊富な観測性により、反復開発速度の最適化が可能となり、最終的には、より迅速なイノベーションを実現し、製品や顧客からのフィードバックに集中できるようになり、アプリケーションをより迅速に提供することができるようになりました。

Sysdigを使えば、重要なシステムを自動的に監視することができます。ポッドの数やSQLスロークエリなどを見ることができます。Sysdigは豊富な機能セットを持っているだけでなく、非常に簡単に導入して使用することができます。本当に魔法のようです。

c2.png

1インシデントあたりの1時間の節約

テンポの速いKubernetesの世界では、迅速なフォレンジックとトラブルシューティングのための包括的な根本原因分析と監査証跡にアクセスできることは、些細な問題が発生した場合と、顧客のサービスに大きな影響を与える大きな問題が発生した場合とで違いが出ます。
アージするためのカーネルレベルの監視機能を提供するため、DevOpsチームは問題の原因をより迅速に特定し、解決するために深く掘り下げることができます。インシデントが発生した場合、JW Playerチームが最初に行うことは、Sysdigのモニタリング・ダッシュボードを見ることです。
Sindi氏は以下のように述べています。

インシデントが発生した場合、特にKubernetesベースの場合で、BPFから自動的に取得できるポッドの数などを把握する必要がある場合は、Sysdigを見ることになります。Kubernetesクラスタの健全性やノードの健全性などの洞察が必要なときは、他の場所を探すことはありません。Sysdigを確認するだけで、クラスタの健全性を監視することができます。

c3.png

Sysdigがどのように定期的に使用されているかについて、Sindi氏が以下の説明も述べています。

数週間前にメディアソースに関する問い合わせが遅くなったという事件がありました。
Sysdigを使ってスロークエリを見ることができたおかげで、SQLクエリの1つに変更を加えることができました。Sysdigは、スロークエリを自動的に可視化してくれる重要なツールであり、これにより少なくとも1時間は節約できました。アップタイムは当社にとって非常に重要であり、99.9%以上の稼働率で運用しています。一分一分が重要なので、インシデント発生時に10分でも節約できるツールがあれば、それは非常に価値あることであり、真摯に受け止めています

SysdigはJW PlayerのAWSクラウド環境に欠かせない存在です。JW Playerにとって、時間がすべてです。Sysdigの即座に利用できるout-of-the-boxな観察力により、同社は動画市場をリードし続け、顧客が遅延なく動画をロードして視聴できるようにすることができます。

Kubernetesスタック全体にわたる豊富な観測性により、反復開発速度の最適化が可能となり、最終的には、より迅速なイノベーションを実現し、製品や顧客からのフィードバックに集中できるようになり、アプリケーションをより迅速に提供することができるようになりました。

詳細は www.sysdig.com をご覧ください。

カテゴリー

ご質問・お問い合わせはこちら

top