ロゴ:Hewlett Packard Enterprise

HPE ProLiant/Cray XDシリーズ
NVIDIA AI対応GPU搭載サーバー

SCSKが推奨するHPE ProLiantシリーズおよびHPE Cray XDシリーズにNVIDIA製GPUを搭載するサーバーは、ベースに汎用のIAサーバーを利用することによって、高い信頼性とリプレースの自由度を両立することができます。

HPE ProLiant DL380a Gen11

  • 第4世代Intel Xeonスケーラブルプロセッサ搭載
  • NVIDIA H100(80GB・PCIe)または A100(80GB・PCIe)最大4基搭載可能
HPE ProLiant DL380a Gen11+GPU4基 正面
HPE ProLiant DL380a Gen11+GPU4基

GPUの拡張性、セキュリティイノベーション、簡素化した管理機能を備えた、AI、IVA、VDIなどエンタープライズワークロードを高速に処理できるサーバーです。第4世代Intel Xeonスケーラブルプロセッサ搭載のHPE ProLiant DL380a Gen11サーバーは、最大4基のダブルワイドGPUを高密度2U 2Pフォームファクターでサポートしています。コアの増設、高速DDR5メモリ、高速PCIe Gen5 I/O帯域幅により、画期的なパフォーマンスを提供します。

また、拡張性を極めたアーキテクチャによって、最新GPUアクセラレータによるイノベーションを実現します。NVIDIA H100(80GB・PCIe)またはA100(80GB・PCIe)を最大4基まで搭載可能です。エッジからクラウドまで、次世代ワークロードを強化し、ビジネスに推進さらなる成果に導きます。

高速でオープン、しかも効率的

  • 第4世代Intel Xeonスケーラブルプロセッサ搭載により、プロセッサあたり最大56コアを350Wでサポート

  • 24個のDIMMスロットを有し、DDR5メモリを最大4800MHzの速度でサポート

  • 高速なコンピュート能力が必要な環境向けに4基のダブルワイドGPUをサポート

  • プロセッサ間でI/Oパフォーマンスと機能を適切に調整

  • PCIe Gen5拡張バスにより、最大でPCIe Gen5 ×16スロット4個およびOCPスロット2個に拡張可能。高いデータ転送レートとネットワーク速度を実現

  • 場所を問わずセキュアに構成、監視、更新できるHPE Integrated Lights-Out 6(iLO 6)サーバー管理ソフトウエアを搭載

  • プロセッサあたり12個のDIMMチャネルで合計最大3TBのDDR5メモリを搭載可能

HPE ProLiant DL385 Gen11

  • 第4世代AMD EPYC 9004シリーズプロセッサ搭載
  • NVIDIA H100(80GB・PCIe)または A100(80GB・PCIe)最大4基搭載可能
HPE ProLiant DL385 Gen11+GPU4基 正面
HPE ProLiant DL385 Gen11+GPU4基

AI、ML、ビッグデータ分析のワークロードに対して、アクセラレータによって最適化されたソリューションです。2U 2Pの構成で、優れたコンピューティングパフォーマンス、高速データ転送レートとメモリバンド幅を提供します。最大96コアを搭載した第4世代AMD EPYC 9004シリーズプロセッサ、強化されたメモリ帯域幅および容量、高速PCIe Gen5のI/O、拡張されたGPUサポート、EDSFFストレージを備えています。

また、拡張性を極めたアーキテクチャによって、最新GPUアクセラレータによるイノベーションを実現します。NVIDIA H100(80GB・PCIe)またはA100(80GB・PCIe)を最大4基まで搭載可能です。HPEのSilicon Root of Trustに基づく高度なセキュリティ機能がファームウェアに組み込まれており、AMD Secure Processorのデジタルフィンガープリントを作成することで、起動前に安全に運用できることを検証します。高いコア数とストレージおよびI/Oの拡張性を必要とする、コンピューティングおよびデータストレージの負荷が大きいワークロードに向けた最適なソリューションです。

高速でオープン、しかも効率的

  • 5nmテクノロジを採用した第4世代AMD EPYC 9004シリーズプロセッサ搭載で、最大で96コア、400W、384MBのキャッシュをサポート。メモリは4800MHz DDR5を採用(最大12チャネル)

  • プロセッサあたり12個のDIMMチャネルによって最大で合計6TB(予定)のDDR5メモリを搭載可能。メモリの帯域幅とパフォーマンスを向上しながら、必要な電力を削減

  • PCIe Gen5のシリアル拡張バスと、最大8個のPCIe Gen5スロットおよび2個のOCPスロットによる高いデータ転送レートとネットワーク速度

  • 場所を問わずセキュアに構成、監視、更新できるHPE Integrated Lights-Out 6(iLO 6)サーバー管理ソフトウエアを搭載

  • ホットプラグ対応で可用性の高いRAID M.2ブートオプションをサポート

HPE Cray Supercomputing XD670(Intel Xeon/8GPU)

  • エクサスケールクラスシステム向けに構築
  • NVIDIA H100(80GB・SXM5)最大8基搭載可能
HPE Cray XD670

あらゆる規模のデータセンターにスーパーコンピューティングのパワーをもたらす、エクサスケールに対応するシステムです。HPE Cray Supercomputing XD670(Intel Xeon/8GPU)システムは、最高のパフォーマンスのGPUアクセラレーションを備えたサーバーであり、ラック・アンド・ロール方式の完全なAIトレーニングとディープラーニングソリューションです。

NVIDIA H100 Tensorコアを備えたGPUを最大8基、2基のCPUを搭載する5Uシャーシのシステムです。SXM5 GPU、ファブリック、メモリ、ストレージの柔軟性を備え、あらゆるAIとHPCユーザーに完全にスケーラブルなソリューションを提供します。大規模モデルのAIトレーニングとディープラーニングに最大のパフォーマンスを提供します。エクサスケール対応ネットワーキングテクノロジー、統合されたストレージ、広範なソフトウエアポートフォリオと管理ツールを使用して構築されており、求められる課題に対応することができます。

エクサスケールに対応するスーパーコンピューティング

  • 5Uシングルノードシャーシ

  • GPU:NVIDIA H100 Tensorコア SXM5 GPU×8によって、AIトレーニング、ディープラーニング、高度なHPCシミュレーションが可能 (※PCIe GPUはサポートされていません)

  • CPU:第4世代Intel XeonスケーラブルプロセッサSapphire Rapidsをサポート

  • DRAM:最大32個のDDR5 4800MT/秒DIMMをサポート

  • 高速ファブリック:Slingshot 11、InfiniBand NDR、イーサネットをサポート

  • PCIe Gen5 ハーフハイト、ハーフレングススロット8基搭載。高速ファブリック、GPU、NVMeドライブ、CPU間の直接切り替え可能な接続を提供

  • ストレージ:最大8SFF NVMe U.2 | U.3および2基のM.2 RAID SSD

  • CRPS 電源:サーバーシステムごとに3000W×6の容量を備え、完全な冗長性を提供

  • PCIe拡張:10G Base-T(RJ45)×2ポート、MLAN(1GbE)×1ポートを内蔵したPCIe Gen5×16拡張スロット×4

HPE Cray Supercomputing XD665(AMD EPYC/4GPU)

  • 4GPUシステムの新たなスタンダード
  • NVIDIA H100 Tensor Core 4GPUとAMD Genoa CPUを搭載
HPE Cray Supercomputing XD665(AMD EPYC/4GPU)

多様なHPC、AIワークロード、高速コンピューティングアプリケーション向けに設計されています。持続可能性と効率を最大限に向上させる直接液冷テクノロジーが搭載されています。医療、生命科学、ファイナンシャルサービス、公共部門、製造などの分野で画期的なパフォーマンスと柔軟性を実現するためのソリューションです。導入と管理を簡素化し、コストの削減に寄与し、ROIの向上が可能になるよう、オンプレミスまたはハイブリッドクラウドで提供できます。

卓越した多用途性を持ち計算集約型アプリケーションに対応

  • 高い柔軟性、多くの選択肢
    ファブリック:Infinibandだけでなく、HPE SlingshotやDLC(Data Link Control)にも対応。より安定的な高性能を実現

  • 冷却:新たな冷却テクノロジーの採用
    筐体内にラジエーターを搭載し、GPUおよびCPUを液体で冷却

  • 高効率冷却テクノロジーの採用により、4Uシャーシを採用

  • 高い消費電力効率

  • 筐体外にCDUを設置し、DLCを実装することが可能

  • GPU:NVIDIA H100 Tensorコア SXM5 GPU×4

  • CPU:第4世代AMD EPYCプロセッサ(Genoa)を搭載

  • PCIe拡張:HHHL x16 PCIe Gen5 PCIe Switch|GPU-Direct RDMA NIC×4、OCP PCIe Gen5 Slot×1

  • DRAM:最大24個のDDR5 4800MHz DIMMをサポート

  • CRPS 電源:CRPS 54VDC 3000W 80Plus Titanlum N+2による冗長性

HPE Cray XD2000

  • HPE Cray XD295vにGPUを搭載可能
  • NVIDIA H100(80GB・PCIe)または A30最大2基搭載可能
HPE Cray XD2000
HPE Cray XD295v
HPE Cray XD295v

HPCやエンタープライズデータセンターの流動的なワークロードニーズに対応できる、密度を最適化したスケールアウトコンピュートシステムです。HPE Cray XD2000システムは、Cray XD220vサーバー(Intel) 最大4台、Cray XD225vサーバー(AMD)4台、Cray XD295vサーバー(AMD)2台のいずれかを収容できる共有インフラストラクチャシャーシです。同じシャーシの他のサーバーの運用に影響を与えることなく各サーバーを保守できるため、システムのアップタイムが向上します。

HPE Cray XD2000システムは、電力/冷却(直接液冷(DLC)を含む)をオプション選択でき、優れたパフォーマンスを実現しながらTCOを削減できます。包括的で拡張性に優れたソリューションを提供します。エクサスケール時代に対応できるネットワーク、統合ストレージ、幅広いソフトウエアポートフォリオ、管理ツールを備え、確かな専門性に基づいて構築されたHPE Cray XD2000システムなら、イノベーションを加速し、将来の課題にも備えることができます。最適なサイズのスーパーコンピューティングを提供可能です。

最適なサイズのスーパーコンピューティング

  • HPE Cray XD220vは、第4世代Intel Xeonスケーラブルプロセッサ(Intel Maxシリーズを含む)をサポート

  • HPE Cray XD225とXD295vは、第4世代AMD EPYC 9004シリーズプロセッサをサポート

  • 1サーバーノードあたり最大24個(AMD)または16個(Intel)の4800MT/秒DDR5 DIMMをサポート

  • HPE Cray XD BMC*はリカバリ機能と信頼チェーンを備えたHardware Root of Trustによって、侵入を許さないファームウェアを提供

  • HPE Clay XD225vの2UバージョンであるHPE Cray XD295vは、GPUや追加PCIeカードをサポート

  • PCIe 4.0を上回るデータ転送速度を持つPCIe 5.0で、SSD、GPU、その他の周辺カードへのデータ転送を高速化

  • U.3 Micron NVMe SSD-U.2スロットで使用できる動的で柔軟な独自のドライブ

* HPE Cray XD BMCは、HPE Cray XD2000にマネージャビリティとセキュリティを提供します。HPE Cray XDは業界標準のBIOSおよびBMCコンポーネントを採用し、業界標準のDMTF Redfishもサポートしており、異機種混在の管理制御ソリューションでも効果的に機能します。

HPE Machine Learning Development Environment(MLDE) ―機械学習モデルの開発を推進―

最も迅速、簡単に機械学習モデルを構築する方法

HPE MLDEの導入によって、数日から数週間かかっていたトレーニングを数時間に短縮し、より高精度なモデルを構築し、GPUコストを管理しながらさまざまな実験を追跡また再現できるようになります。Determined AIのオープンソース型トレーニングプラットフォームを基盤とするこのソリューションでは、機械学習モデル開発の簡素化と関連コストの削減が実現するため、イノベーションに向けてインフラストラクチャの管理ではなく、モデルの構築に注力できるようになります。

モデルのトレーニングを高速化

MLエンジニアは、マルチノードマルチGPUの分散トレーニングや最先端の自動ハイパーパラメータ探索を活用してモデルのトレーニングを高速化できます。マシン、ネットワーキング、データロード、およびフォールトトレランスのプロビジョニングを管理して、分散モデルトレーニングを迅速かつ容易に行えるため、あらゆる規模でトレーニングを行うことができます。

複雑さを解消してコストを削減

IT管理者によるAIコンピュートクラスタのセットアップ、管理、セキュリティ確保、共有が容易になるため、MLモデル開発者が成果を実現するまでの時間を短縮できます。デベロッパーはスマートスケジューリングでGPUを有効活用するとともに、スポットインスタンスのシームレスな活用でクラウドのGPUコストを削減できます。

データサイエンスとのコラボレーションの強化

実験の追跡やモデルの容易な再現などの機能によって、MLチームのコラボレーションが容易になり、ミッションを迅速化します。結果として、チームは実験結果を容易に解釈し、実験を再現・活用できます。

MLエンジニアのニーズに対応

HPE MLDEは、イノベーションに注力して本稼働までの時間を短縮できる、新しいソリューションを探し続けている機械学習(ML)エンジニアとデータサイエンティストのニーズに対応します。MLモデルの開発を簡素化するとともに、関連コストを削減し、MLモデル開発者の成果達成までの時間を短縮します。

クラウド、オンプレミスで展開されるインフラストラクチャがともにサポートされているHPE MLDEでは、PyTorch、TensorFlow、Kerasを使用してモデルを開発でき、データ準備やモデル展開向けのMLツールとのシームレスな統合も可能です。

  • インフラストラクチャのコード記述が不要

  • IT管理者は、AIコンピュートクラスタを簡単にセットアップ、管理、保護、共有が可能

  • 容易に設定可能な最新の分散型トレーニングによってモデルのトレーニングに必要な時間を短縮

  • 最新のチューニングアルゴリズム作成者による高度なハイパーパラメータチューニングを使用して高品質モデルを自動検索

  • スマートスケジューリングでGPUを有効活用するとともに、スポットインスタンスの活用でクラウドのGPUコストを削減

  • コードのバージョン、メトリクス、チェックポイント、ハイパーパラメータを網羅する実験追跡機能で作業の追跡と完全な再現が可能

簡単に実行できる、分散型トレーニングのシームレスな拡張

HPE MLDEでは、MLエンジニアはモデルコードを変更することなく、MLトレーニングを複数のノード、また数百個のGPUへとシームレスに拡張できます。分散型トレーニングのジョブは、1つの設定を変更するだけで簡単に開始できます。MLエンジニアによるHPE MLDEの拡張をサポートするべく、拡張に向けたインフラストラクチャコードのトレーニング、さらにマシンのプロビジョニング、ネットワーキング、データロード、フォールトトレランスなどのサポートも提供しています。

HPE MLDE スクリーンショット1
処理に対する時間やメモリ使用率などシステムメトリクスを示すスクリーンショット

最新のハイパーパラメータチューニングを活用した高精度モデルの構築

MLの開発プロセスに欠かせないハイパーパラメータチューニングは、モデルの予測パフォーマンスを最大化するうえで重要な役割を果たします。ハイパーパラメータチューニングを実際に活用するには、分散型トレーニングやクラスタ管理など、重要なインフラストラクチャ機能が必要となります。HPE MLDEは、自動ハイパーパラメータ探索機能に加え、最新のチューニングアルゴリズムをサポートしているため、リソースを削減しつつ、短時間でより高精度なモデルを開発できます。

HPE MLDE スクリーンショット2
Adaptive ASHAアルゴリズムによる自動ハイパーパラメータ探索の学習経過を示すスクリーンショット。複数のTrialが同時に作成され段階的評価をされる

自動実験追跡で結果を分析

MLエンジニアによる結果の分析と再現をサポートするため、HPE MLDEは、実験管理機能に高度な可視化手法を組み合わせて活用しています。HPE MLDEでは、モデルコード、ライブラリ依存関係、ハイパーパラメータ、設定が自動で維持されるため、MLエンジニアは以前に実施された実験を簡単に再現できます。組み込みのモデルレジストリは、トレーニング済みモデルを追跡し、成功する可能性の高いバージョンや重要なバージョンを特定できます。拡大したMLチームでチームメンバーが簡単かつ迅速に共有、拡張できるようになります。こうしたツールの存在は極めて重要です。

HPE MLDE スクリーンショット3
投入された実験一覧を示すスクリーンショット。ユニークな実験IDが付与され、可視化された実験内容を確認することができる

組み込みのリソース管理機能でさまざまなクラスタリソースを共有

HPE MLDEには、リソース管理機能が組み込まれており、オンプレミスまたはクラウドのクラスタ運用を簡素化してクラスタ稼働率を高めます。チームメンバーは、MLDE組み込みのクラスタスケジューラでフェアシェアや優先度設定を活用してジョブを投げることができます。KubernetesやSlurm、PBSなど異なるオーケストレーションツール、スケジューラと連携して動かすこともできます。HPE MLDEの組み込みスケジューラは、下記のような機能を提供する最高クラスのMLワークロードをサポートしています。

  • ハイパーパラメータチューニングのスケジューリング
  • 長期間実行されるジョブの一時停止と再起動
  • 自動フォールトトレランス
  • スポットインスタンスのシームレスな活用
  • オンデマンドのインスタンス課金
HPE MLDE スクリーンショット4
AWSのインスタンスをMLDEのリソースプールに登録し、そのリソースプール内のリソースを使って処理をすることを示すスクリーンショット。ワーカーインスタンスはジョブが投げられた時のみインスタンスを立ち上げ稼働し、終了後直ちに終了させるため無駄なGPUインスタンスコストがかからないようになっている

AIデータ サイエンティストが求めていたソリューションを実現

ビジネスの成長の機会を求めていくには、HPE MLDEは最適なソリューションです。AI、ML展開の拡張をサポートする、将来を見据えたプラットフォームを導入することで、エクサスケール時代のHPCをスムーズに運用しながら、ITリソースの統合によってMLモデル開発を簡素化し、関連コストも削減できます。

ダウンロード資料

お問い合わせ、資料のダウンロード、PoCお申し込みはこちらから

SCSKでは、GPUを搭載する各種AIサーバーを用意しています。

GPU性能を極限まで引き出したいなら…… NVIDIA DGXシリーズ

[AI Server]トップに戻る…… NVIDIA AI対応GPU搭載サーバー

HPEの関連サイトは…… HPE Crayスーパーコンピューティング