HPE Performance Cluster Manager



HPCシステムの複雑な管理を簡素化する、柔軟で使いやすいクラスタ管理ソリューション
※適用するサーバーにより、利用できる機能は異なります。
本番環境に迅速に移行
- わずか数分ですべてのソフトウェアをインストールしてベアメタル上にシステムを展開
- 通常1回のセッションでノードを同時にプロビジョニング
- セットアップ中にハードウェアのエレメントを自動的に検出して構成
- サービスを中断することなくクラスタを拡張
- システムをシャットダウンすることなく、新たなクラスタノードを追加できます。また、新しいハードウェアが自動的に検出され、迅速にプロビジョニングされます。
監視と管理
クラスタのあらゆる要素をきめ細かく一元的に監視・管理する機能を備えており、ユーザーが選択したインターフェースを使用して最適なパフォーマンスを維持できます。

- GUI、CLI、Ganglia、Nagios、Kibana、またはGrafanaで各指標およびアラートを表示
- ユーザーのニーズに合わせてシステムのテレメトリとアラートをカスタマイズ
- イベントへの自動対応をセットアップして障害を回避


ヘルスチェック
アプリケーションを確実に実行し、最適なパフォーマンスを維持できるようにサポートします。
- 異常のあるノードでジョブを実行しないよう、アプリケーションを起動する前にノードを確認
- ジョブが失敗したりパフォーマンスが低下したりする原因を分析
- 定期的にヘルスチェックを実施して、クラスタに異常がないことを確認
- システムが最適な状態で稼働できるよう、メンテナンス期間中に詳細なテストを実施
同じクラスタ上で幅広いアプリケーションを実行
- 任意の数のノードにさまざまなアプリケーションをプロビジョニングして、ユーザーのニーズに対応
- オンザフライでノードを再利用することで、待機時間を最小化
- クラスタの他ノードでのジョブの実行を妨げることなく、アイドル状態のノードでソフトウェアアップデートなどのメンテナンスタスクを実行
- 管理者は、コンピュートリソースの利用状況(データ、ジョブ、ユーザー)を確認して分析することで、利用可能なリソースを最大限に活用可能
電力/冷却管理
電力リソースのスマート管理により、データセンターの経済性が向上します。
- CPU、GPU、ラック、シャーシ、ノード、ラックAC、バルクDC、CDU(HPE ARCSおよびDLCなどの液冷インフラストラクチャを含む)などの電力/冷却ハードウェアの監視および管理
- 冷却ハードウェアに関するMLベースのリアルタイム異常検知
- 段階的なトポロジおよびプロトコル認識型の電源オン/オフ機能により、クラスタシステムの起動とシャットダウンを制御
- 電力消費量と予測…電力とエネルギーのデータを集計し、分析およびプランニングに利用
- 電力消費量を抑制してユーザー、グループ、およびジョブ単位で電力を供給し、すべての消費エネルギーを把握
- 障害回避などの理由により、消費電力制限を適用する上限値を設定
サードパーティツールとの統合
HPE Performance Cluster Managerを他の管理ツールと統合することで、クラスタの管理を簡素化できます。
- ワークロードマネージャ
- オープンソース/標準のデータセンター自動化ツール
- ファブリックソフトウェア
- オープンソースのシステム監視、アラート、分析ツール