NVIDIA AI対応GPU搭載サーバー
AI、ディープラーニング、生成AIの用途に応えるGPUサーバー

高まるAIのニーズ

生産性の向上や労働の過度な負担改善などが期待できることから、あらゆる分野でAIの応用が期待されています。AIには強力な演算処理能力が求められますが、この能力を満たすためにGPUが演算装置として利用されています。SCSKでは、GPUを搭載する各種AIサーバーを用意しています。

AIサーバー導入のメリット

GPUがAIに使われている理由は、高い並列計算能力にあります。本来はパソコンなどの描画を行うグラフィックスボードの主要部品でしたが、並列処理が得意で同じような計算を高速で繰り返すことができます。一方、CPUほど複雑で多様な処理はできません。しかし、GPUの演算能力の特性が、高速な並列処理が求められるAIの開発に適しています。

NVIDIA DGXシリーズは、GPU性能を最大限に引き出し、AIのワークフローに対応することができます。SCSKが推奨するHPE ProLiantシリーズおよびHPE Cray XDシリーズにNVIDIA製GPUを搭載するサーバーは、ベースに汎用のIAサーバーを利用することによって、高い信頼性とリプレースの自由度を両立することができます。

GPU搭載AIサーバー導入によって可能になること

(1)製品設計

製品の3Dモデリングやシミュレーションを行う際、複雑な計算を高速に処理します。これにより、設計者はリアルタイムで設計の調整や最適化を行うことができます。

(2)品質保証

AIを利用した自動検査システムで、製品の欠陥を高速に検出します。これにより、生産ラインでの不良品の出荷を防ぎ、品質の高い製品を提供することが可能になります。

(3)予測メンテナンス

AIを利用した予測メンテナンスシステムで大量のセンサーデータを解析し、機械の故障を予測します。これにより、予期せぬダウンタイムを防ぎ、生産効率の向上が可能になります。

(4)生産計画の最適化

需要予測やリソースの最適な配分など、複雑な問題を迅速に解決します。

(5)在庫管理

AIを利用した在庫管理システムでは、過去の販売データや現在の在庫状況などを基に、必要な製品の量を高速に計算します。これにより、在庫の過剰または不足を防ぐことができます。

【導入にあたって】 AI対応GPUの選択ポイント

AIのためのGPU選択には、次のポイントがあります。

  • コスト

    GPUそのもののコストも重要ですが、GPUを搭載するサーバーのコストも重要です。導入費用だけでなく、ランニングコストにも注意を向ける必要があります。

  • コア数

    CPUのマルチコアはよく知られていますが、GPUは少し事情が違います。CPUは1つのプロセッサに数個程度のコアを備えていますが、GPUの場合は数千個のコアになります。

  • メモリ容量とメモリ帯域

    GPUは、メモリ容量とメモリ帯域で能力が決まります。メモリの容量が大であれば、より大規模なAIモデルを処理できます。メモリ帯域が広ければ処理が高速になります。

  • 発熱/冷却処理性能

    GPUの課題に発熱があります。高速の並列処理を行うために発熱が膨大で、冷却の問題がつきまといます。冷却の問題が解決されているシステム構成を選択することが重要です。

  • 消費電力

    GPUは、高速の並列処理を行うため電力消費が大きくなりやすい傾向があります。サーバー側にGPUを多数搭載できるスペックがあったとしても、電力がまかなえない場合もありえます。電力問題が解決されているシステム構成を選択する必要があります。

以上のような課題は、SCSKにお任せください。用途・目的にあったAIサーバーを用意しています。

AIに最適なNVIDIAのGPU

NVIDIA A100 TensorコアGPU

NVIDIA A100

A100は、2TB/秒を超える最速のメモリ帯域幅を誇り、最大規模のモデルとデータセットを実行できます。ハードウエア、ネットワーキング、ソフトウエア、ライブラリ、最適化されたAIモデル、NVIDIA NGCのアプリケーションにわたる構成要素を組み込んでいます。パワフルなAI/HPC用エンド・ツー・エンド・プラットフォームであり、ソリューションを大規模な運用環境に展開できます。

※NVIDIA NGC:企業向けのサービス、ソフトウエア、管理ツール、サポートでAIとデジタルツインのエンド・ツー・エンド・ワークフローを支援するポータル

NVIDIA A100のスペック

フォームファクター A100 80GB PCIe A100 80GB SXM
FP64 9.7TFLOPS
FP64 Tensorコア 19.5TFLOPS
FP32 19.5TFLOPS
Tensor Float 32 (TF32) 156TFLOPS | 312TFLOPS*
BFLOAT16 Tensorコア 312TFLOPS | 624TFLOPS*
FP16 Tensorコア 312TFLOPS | 624TFLOPS*
INT8 Tensorコア 624TOPS | 1248TOPS*
GPUメモリ 80GB HBM2e 80GB HBM2e
GPUメモリ帯域幅 1,935GB/秒 2,039GB/秒
最大熱設計電力(TDP) 300W 400W***
マルチインスタンスGPU 最大7基のMIGs @ 10GB 最大7基のMIGs @ 10GB
フォームファクター PCIe
デュアルスロット空冷 または デュアルスロット液冷
SXM
相互接続 NVIDIA NVLink Bridge
ブリッジ 2GPU用:600GB/秒**
PCIe Gen4:64GB/秒
NVLink:600GB/秒
PCIe Gen4:64GB/秒
サーバーオプション 1~8GPU搭載のパートナー および NVIDIA-Certified Systems NVIDIA HGX A100 - 4、8、16GPU搭載のパートナー および NVIDIA-Certified Systems 8GPU搭載のNVIDIA DGX A100
  • * 疎性あり
  • ** HGX A100サーバーボードを経由したSXM4 GPU; NVLinkブリッジ経由のPCIe GPU(最大2基のGPU向け)
  • *** 標準構成でTDP 400W。HGX A100-80GBのカスタムサーマルソリューション(CTS)SKUは、最大500WのTDPに対応可能です。

NVIDIA H100 TensorコアGPU

NVIDIA H100

H100は、アクセラレーテッド・コンピューティングの神髄です。NVIDIA NVLink Switch Systemにより、最大256個のH100を接続し、エクサスケールのワークロードを高速化できます。さらに、専用のTransformer Engineを利用することで、パラメーターが兆単位の言語モデルを実装できます。

最大1750億パラメーターの大規模言語モデル(LLM)の場合、PCIeベースのH100 NVL with NVLinkブリッジは、Transformer Engine、NVLink、および188GB HBM3メモリを利用して、最適な性能と容易な拡張性を提供します。H100 NVL GPUを搭載したサーバーは、電力制約のあるデータセンター環境において低遅延を維持しながら、GPT-175Bモデルの性能をNVIDIA DGX A100システムの最大12倍まで向上します。

NVIDIA H100のスペック

フォームファクター H100 SXM H100 PCIe H100 NVL(*2)
FP64 34teraFLOPS 26teraFLOPS 68teraFLOPs
FP64 Tensorコア 67teraFLOPS 51teraFLOPS 134teraFLOPs
FP32 67teraFLOPS 51teraFLOPS 134teraFLOPs
TF32 Tensorコア 989teraFLOPS* 756teraFLOPS* 1,979teraFLOPs*
BFLOAT16 Tensorコア 1,979teraFLOPS* 1,513teraFLOPS* 3,958teraFLOPs*
FP16 Tensorコア 1,979teraFLOPS* 1,513teraFLOPS* 3,958teraFLOPs*
FP8 Tensorコア 3,958teraFLOPS* 3,026teraFLOPS* 7,916teraFLOPs*
INT8 Tensorコア 3,958TOPS* 3,026TOPS* 7,916TOPS*
GPUメモリ 80GB 80GB 188GB
GPUメモリ帯域幅 3.35TB/s 2TB/秒 7.8TB/s(*1)
デコーダー 7NVDEC
7JPEG
7NVDEC
7JPEG
14NVDEC
14JPEG
最大熱設計電力(TDP) 最大700W(構成可能) 300~350W(構成可能) 2×350-400W(構成可能)
マルチインスタンGPU 最大7個のMIG @ 10GB 各12GBの最大14のMIG
フォームファクター SXM PCIe
デュアルスロット空冷
2×PCIe
デュアルスロット空冷
相互接続 NVLink:900GB/秒
PCIe Gen5:128GB/秒
NVLINK:600GB/秒
PCIe Gen5:128GB/秒
NVLink:600GB/秒
PCIe Gen5:128GB/s
サーバーオプション 4または16GPU搭載のNVIDIA HGX H100パートナー および NVIDIA-Certified Systems 8GPU搭載 NVIDIA DGX H100 1~8GPU搭載のパートナー および NVIDIA-Certified Systems 2-4組のパートナー および NVIDIA-Certified Systems
NVIDIA AI Enterprise アドオン 含む アドイン
  • * 疎性あり
  • (*1) HBM帯域幅の総計
  • (*2) 参考仕様。仕様は変更される場合があります。H100 NVL PCIeカード2枚とNVLink Bridgeを組み合わせた場合の仕様です。

NVIDIA L40S GPU

NVIDIA L40S

L40Sは、データセンター用途において比類のないAIとグラフィックスのパフォーマンスを発揮します。第4世代Tensorコアと最適化されたTF32フォーマットのハードウエアサポートにより、AIおよびデータサイエンスモデルのトレーニングを高速化します。

第3世代RTコアは、スループットの向上、レイトレーシングとシェーディングの同時実行機能によって、パフォーマンスが向上しています。レイトレーシングのパフォーマンスとレンダリングの高速化は、エンジニアリングや建設関連のワークフロー、ハードウエアアクセラレーションによるモーションブラーによって、実物に迫るリアルタイムアニメーションを実現します。Transformer Engineは、AIパフォーマンスを劇的に加速し、トレーニングと推論の両方に利用できます。

L40Sは、データセンター対応します。エンタープライズデータセンターの24時間年中無休の運用向けに最適化されており、NVIDIAによって構築、テスト、サポートされ、最大限のパフォーマンス、耐久性を実現しています。 最新のデータセンター基準を満たしており、Network Equipment Building System(NEBS)レベル3に対応し、rootによるセキュアブート機能を備えています。信頼性の高い技術により、データセンターに一層のセキュリティを提供します。

NVIDIA L40Sのスペック

GPUアーキテクチャ NVIDIA Ada Lovelaceアーキテクチャ
GPUメモリ 48GB GDDR6(ECC搭載)
メモリ帯域幅 毎秒864GB
相互接続インターフェース PCIe Gen4 ×16:毎秒64GB双方向
NVIDIA Ada LovelaceアーキテクチャベースのCUDAコア 18,176
NVIDIA 第3世代RTコア 142
NVIDIA 第4世代Tensorコア 568
RTコアパフォーマンス TFLOPS 212
FP32 TFLOPS 91.6
TF32 Tensorコア TFLOPS 183 | 366*
BFLOAT16 Tensorコア TFLOPS 362.05 | 733*
FP16 Tensorコア 362.05 | 733*
FP8 Tensorコア 733 | 1,466*
ピーク INT8 Tensor TOPS
ピーク INT4 Tensor TOPS
733 | 1,466*
733 | 1,466*
フォームファクター 4.4"(H)×10.5"(L)、デュアルスロット
Display Ports 4×DisplayPort 1.4a
最大消費電力 350W
電源コネクタ 16ピン
サーマル パッシブ
仮想GPU(vGPU)ソフトウエアサポート あり
サポートされているvGPUプロファイル 仮想**
NVENC | NVDEC 3× | 3×(AV1エンコード/デコードを含む)
信頼の基点(Root of Trust)によるSecure Boot あり
NEBS Ready レベル3
マルチインスタンスGPU(MIG)サポート なし
NVIDIA NVLinkサポート なし

SCSKでは、GPUを搭載する各種AIサーバーを用意しています。

GPU性能を極限まで引き出したいなら…… NVIDIA DGXシリーズ

システム構成の汎用性と自由度を求めるなら…… HPE ProLiant/Cray XDシリーズ