HPE Performance Cluster Manager

画面イメージ:HPCM
画面イメージ:Ganglia
画面イメージ:Nagios

HPCシステムの複雑な管理を簡素化する、柔軟で使いやすいクラスタ管理ソリューション

※適用するサーバーにより、利用できる機能は異なります。

本番環境に迅速に移行

  • わずか数分ですべてのソフトウェアをインストールしてベアメタル上にシステムを展開
  • 通常1回のセッションでノードを同時にプロビジョニング
  • セットアップ中にハードウェアのエレメントを自動的に検出して構成
サービスを中断することなくクラスタを拡張
システムをシャットダウンすることなく、新たなクラスタノードを追加できます。また、新しいハードウェアが自動的に検出され、迅速にプロビジョニングされます。

監視と管理

クラスタのあらゆる要素をきめ細かく一元的に監視・管理する機能を備えており、ユーザーが選択したインターフェースを使用して最適なパフォーマンスを維持できます。

監視・管理するあらゆる要素:CPU、GPU、メモリとディスク、冷却とネットワーキング、ソフトウェア
  • GUI、CLI、Ganglia、Nagios、Kibana、またはGrafanaで各指標およびアラートを表示
  • ユーザーのニーズに合わせてシステムのテレメトリとアラートをカスタマイズ
  • イベントへの自動対応をセットアップして障害を回避
クラスタ上のアラートの概要…ドリルダウンで個別の問題に対処
ドリルダウンイメージ
クラスタの稼働状態を瞬時に把握…簡単にビューをカスタマイズして新しいダッシュボードを作成可能
ダッシュボードイメージ

ヘルスチェック

アプリケーションを確実に実行し、最適なパフォーマンスを維持できるようにサポートします。

  • 異常のあるノードでジョブを実行しないよう、アプリケーションを起動する前にノードを確認
  • ジョブが失敗したりパフォーマンスが低下したりする原因を分析
  • 定期的にヘルスチェックを実施して、クラスタに異常がないことを確認
  • システムが最適な状態で稼働できるよう、メンテナンス期間中に詳細なテストを実施

同じクラスタ上で幅広いアプリケーションを実行

  • 任意の数のノードにさまざまなアプリケーションをプロビジョニングして、ユーザーのニーズに対応
  • オンザフライでノードを再利用することで、待機時間を最小化
  • クラスタの他ノードでのジョブの実行を妨げることなく、アイドル状態のノードでソフトウェアアップデートなどのメンテナンスタスクを実行
  • 管理者は、コンピュートリソースの利用状況(データ、ジョブ、ユーザー)を確認して分析することで、利用可能なリソースを最大限に活用可能

電力/冷却管理

電力リソースのスマート管理により、データセンターの経済性が向上します。

  • CPU、GPU、ラック、シャーシ、ノード、ラックAC、バルクDC、CDU(HPE ARCSおよびDLCなどの液冷インフラストラクチャを含む)などの電力/冷却ハードウェアの監視および管理
  • 冷却ハードウェアに関するMLベースのリアルタイム異常検知
  • 段階的なトポロジおよびプロトコル認識型の電源オン/オフ機能により、クラスタシステムの起動とシャットダウンを制御
  • 電力消費量と予測…電力とエネルギーのデータを集計し、分析およびプランニングに利用
  • 電力消費量を抑制してユーザー、グループ、およびジョブ単位で電力を供給し、すべての消費エネルギーを把握
  • 障害回避などの理由により、消費電力制限を適用する上限値を設定

サードパーティツールとの統合

HPE Performance Cluster Managerを他の管理ツールと統合することで、クラスタの管理を簡素化できます。

  • ワークロードマネージャ
  • オープンソース/標準のデータセンター自動化ツール
  • ファブリックソフトウェア
  • オープンソースのシステム監視、アラート、分析ツール