HPCクラスタシステムの監視・管理システム

HPCクラスタシステムの監視・管理をサポート
Hewlett Packard Enterprise(HPE社)製サーバー製品の監視用として提供されていたシステム監視ソフトウェア HPE Systems Insight Manager(HPE SIM)が、2021年6月をもって新規ハードウェアへの対応が終了(*1)となりました。
HPE社メーカー準拠の監視ソフトウェアがなくなったこと、マルチベンダとなるシステム環境のご要望も増加していることを踏まえ、HPE SIMに代わりZabbix(Zabbix社提供)を利用した新監視システムをご用意いたしました(*2)。新監視システムは、弊社にてHPCクラスタシステムの障害監視用途にカスタマイズしたもので、計算サーバーでは重要となる計算リソースへの負荷を抑えたハードウェア監視機能を備えています。
- *1:HPE社によるHPE SIMのサポートは3年間継続されます。
- *2:新監視システムはHPE SIMと同等の機能を提供するものではありません。
HPCシステム監視について
最も評価されているオープンソースの監視サーバー(Gartner調べ/5点満点中4.5点の評価)であるZabbixサーバーを使用して、クラスタ内部のさまざまな機器を一括監視します。Webインターフェースを使うことでシステムの障害状況、障害履歴の確認もできます。
- HPCシステム特性に適したエージェントレス監視を実現
- 解析処理のパフォーマンス劣化を懸念されるお客様向けに、SCSK独自のエージェントレス監視機能(ハードウェア監視)をご提供します。

※監視対象は弊社指定のハードウェアに限定されます。OS内の各種サービスやリソース等は監視対象外です。 ※弊社HPC保守メニューAおよびBをご契約のお客様には、本監視システムに関するベストエフォートでの保守をご提供します。
HPE SIMとの相違点
管理画面(GUI)の比較
新監視システムは、HPE SIMと同様にGUI管理画面でシステムの障害状況の確認および各種監視設定を行うことが可能です。


主な使用感の違いとしては、Zabbixではトップページから障害情報を即時に確認できるような管理画面になっていることに対して、HPE SIMでは左メニューに表示されている各機器をクリックすることで、ステータスの詳細やインベントリ情報を確認していく流れになっています。
※Zabbixでは、障害監視用の情報のみ収集しているため、機器のインベントリ情報(機器モデル情報やファームウェアバージョン等)は
取得しておりません。
監視方法(概要図)


- 新監視システムは、HPE SIMと同様に監視サーバーが各対象機器を監視します。
- ステータスポーリング、トラップの監視、Pingでの死活監視により機器のハードウェア監視を行いますが、新監視システムでは、ポーリング監視の対象にストレージ機器が含まれません。
- 障害検知時の通知は、HPE SIMと同様にメールで送信されます。
監視項目
種別 | 新監視システム | HPE SIM | ||||
---|---|---|---|---|---|---|
ステータスポーリングによるハードウェア障害監視(*3) | SNMP Trap監視 | Ping監視 | ステータスポーリングによるハードウェア障害監視 | SNMP Trap監視 | Ping監視 | |
サーバ機器 | 〇(BMCと連携) | 〇 | 〇 | 〇(BMCと連携) | 〇 | 〇 |
UPS(Network Module) | 〇 | 〇 | 〇 | 〇 | 〇 | 〇 |
ネットワーク機器 | 〇 | 〇 | 〇 | 〇 | 〇 | 〇 |
ストレージ機器 | × | 〇 | 〇 | 〇 | 〇 | 〇 |
|
SCSK運用保守メニューA「ベーシック」およびB「ハードウェアベンダへのコール代行」をご契約いただいているお客様には、弊社運用保守窓口から弊社ログ一括収集ツールCHECKSYSでの詳細ログ取得の案内をしますので、その情報をもとに弊社にて詳細解析を実施します。
SCSKクラスタ構築ツール
【SCSK HPC Live Backup Manager】
HPE社製サーバーのクラスタ構築においてメインで活用されていた構築ツール HPE Cluster Management Utility(HPE CMU)のサポートが2021年6月で終了となりました。
HPE社からは、後継ツールのHPE Performance Cluster Manager(HPCM)を提供しておりますが、複数OSバージョンを利用するなど混在環境や増設でサーバーを追加していく場合では、運用が難しい面があること、HPE社以外のサーバー機器では、OSイメージ配布ツールのスタンダードが決まっていないこともありましたので、SCSKとしてクラスタ構築ツールをご用意いたしました。
SCSKクラスタ構築ツール【SCSK HPC Live Backup Manager】とは
SCSK HPC Live Backup Manager(SCSKHLBM)は、各種ノードのバックアップおよび展開(クローニング)を行うイメージ配信ツールで、SCSK内製のソフトウェアです。
他ツール類と比較して、以下のメリットを有しています。
- オンラインバックアップに対応
- 複数のLinuxOSのバックアップに対応
- OS種別やバージョンが混在している環境にも対応
- Smart ArrayのRaid設定を自動化
- BIOS、iLO設定の自動化(HPE社製ProLiantサーバーのみ)
SCSKHLBMの機能
- 管理者の負担を最小化
- バックアップ・リストア方式でイメージのカスタマイズは不要です。バックアップも稼働中に取得可能で、メンテナンスのためのシステム停止は必要ありません。また、ディザスタリカバリなのでストレージ故障にも対応しています。
- HPC環境を最大限活用
- InfiniBandを使用することで多数の管理対象クライアントへのOSリストアが高速に行えます。ユニキャストなのでリストア失敗もありません。リストアに使うPXEブートイメージもInfiniBand経由のため、ストレスなしで運用可能です。
- さまざまなハード・ソフトに対応
- Red Hat Enterprise Linuxだけでなく、SUSEやUbuntuにも対応。ハードウェアもサーバー製品だけでなくワークステーションにも対応しており、お客様の希望する構成を幅広くサポートします。