NVIDIA AI対応GPU搭載サーバー | NVIDIA GPU Solution

高まるAIのニーズ

生産性の向上や労働の過度な負担改善などが期待できることから、あらゆる分野でAIの応用が期待されています。AIには強力な演算処理能力が求められますが、この能力を満たすためにGPUが演算装置として利用されています。SCSKでは、GPUを搭載する各種AIサーバーを用意しています。

AIサーバー導入のメリット

GPUがAIに使われている理由は、高い並列計算能力にあります。本来はパソコンなどの描画を行うグラフィックスボードの主要部品でしたが、並列処理が得意で同じような計算を高速で繰り返すことができます。一方、CPUほど複雑で多様な処理はできません。しかし、GPUの演算能力の特性が、高速な並列処理が求められるAIの開発に適しています。

NVIDIA DGXシリーズは、GPU性能を最大限に引き出し、AIのワークフローに対応することができます。SCSKが推奨するHPE ProLiantシリーズおよびHPE Cray XDシリーズにNVIDIA製GPUを搭載するサーバーは、ベースに汎用のIAサーバーを利用することによって、高い信頼性とリプレースの自由度を両立することができます。

AI Server

NVIDIA DGXシリーズ

AI Server

HPE ProLiant／Cray XDシリーズ

GPU搭載AIサーバー導入によって可能になること

（1）製品設計

製品の3Dモデリングやシミュレーションを行う際、複雑な計算を高速に処理します。これにより、設計者はリアルタイムで設計の調整や最適化を行うことができます。

（2）品質保証

AIを利用した自動検査システムで、製品の欠陥を高速に検出します。これにより、生産ラインでの不良品の出荷を防ぎ、品質の高い製品を提供することが可能になります。

（3）予測メンテナンス

AIを利用した予測メンテナンスシステムで大量のセンサーデータを解析し、機械の故障を予測します。これにより、予期せぬダウンタイムを防ぎ、生産効率の向上が可能になります。

（4）生産計画の最適化

需要予測やリソースの最適な配分など、複雑な問題を迅速に解決します。

（5）在庫管理

AIを利用した在庫管理システムでは、過去の販売データや現在の在庫状況などを基に、必要な製品の量を高速に計算します。これにより、在庫の過剰または不足を防ぐことができます。

【導入にあたって】 AI対応GPUの選択ポイント

AIのためのGPU選択には、次のポイントがあります。

コスト

GPUそのもののコストも重要ですが、GPUを搭載するサーバーのコストも重要です。導入費用だけでなく、ランニングコストにも注意を向ける必要があります。
コア数

CPUのマルチコアはよく知られていますが、GPUは少し事情が違います。CPUは1つのプロセッサに数個程度のコアを備えていますが、GPUの場合は数千個のコアになります。
メモリ容量とメモリ帯域

GPUは、メモリ容量とメモリ帯域で能力が決まります。メモリの容量が大であれば、より大規模なAIモデルを処理できます。メモリ帯域が広ければ処理が高速になります。
発熱／冷却処理性能

GPUの課題に発熱があります。高速の並列処理を行うために発熱が膨大で、冷却の問題がつきまといます。冷却の問題が解決されているシステム構成を選択することが重要です。
消費電力

GPUは、高速の並列処理を行うため電力消費が大きくなりやすい傾向があります。サーバー側にGPUを多数搭載できるスペックがあったとしても、電力がまかなえない場合もありえます。電力問題が解決されているシステム構成を選択する必要があります。

以上のような課題は、SCSKにお任せください。用途・目的にあったAIサーバーを用意しています。

AIに最適なNVIDIAのGPU

NVIDIA A100 TensorコアGPU

A100は、2TB/秒を超える最速のメモリ帯域幅を誇り、最大規模のモデルとデータセットを実行できます。ハードウエア、ネットワーキング、ソフトウエア、ライブラリ、最適化されたAIモデル、NVIDIA NGC^※のアプリケーションにわたる構成要素を組み込んでいます。パワフルなAI／HPC用エンド・ツー・エンド・プラットフォームであり、ソリューションを大規模な運用環境に展開できます。

※NVIDIA NGC：企業向けのサービス、ソフトウエア、管理ツール、サポートでAIとデジタルツインのエンド・ツー・エンド・ワークフローを支援するポータル

NVIDIA A100のスペック

フォームファクター	A100 80GB PCIe	A100 80GB SXM
FP64	9.7TFLOPS
FP64 Tensorコア	19.5TFLOPS
FP32	19.5TFLOPS
Tensor Float 32 (TF32)	156TFLOPS \| 312TFLOPS^*
BFLOAT16 Tensorコア	312TFLOPS \| 624TFLOPS^*
FP16 Tensorコア	312TFLOPS \| 624TFLOPS^*
INT8 Tensorコア	624TOPS \| 1248TOPS^*
GPUメモリ	80GB HBM2e	80GB HBM2e
GPUメモリ帯域幅	1,935GB/秒	2,039GB/秒
最大熱設計電力（TDP）	300W	400W^***
マルチインスタンスGPU	最大7基のMIGs @ 10GB	最大7基のMIGs @ 10GB
フォームファクター	PCIe デュアルスロット空冷またはデュアルスロット液冷	SXM
相互接続	NVIDIA NVLink Bridge ブリッジ 2GPU用：600GB/秒^** PCIe Gen4：64GB/秒	NVLink：600GB/秒 PCIe Gen4：64GB/秒
サーバーオプション	1～8GPU搭載のパートナーおよび NVIDIA-Certified Systems	NVIDIA HGX A100 - 4、8、16GPU搭載のパートナーおよび NVIDIA-Certified Systems 8GPU搭載のNVIDIA DGX A100

* 疎性あり
** HGX A100サーバーボードを経由したSXM4 GPU; NVLinkブリッジ経由のPCIe GPU（最大2基のGPU向け）
*** 標準構成でTDP 400W。HGX A100-80GBのカスタムサーマルソリューション（CTS）SKUは、最大500WのTDPに対応可能です。

NVIDIA H100 TensorコアGPU

H100は、アクセラレーテッド・コンピューティングの神髄です。NVIDIA NVLink Switch Systemにより、最大256個のH100を接続し、エクサスケールのワークロードを高速化できます。さらに、専用のTransformer Engineを利用することで、パラメーターが兆単位の言語モデルを実装できます。

最大1750億パラメーターの大規模言語モデル（LLM）の場合、PCIeベースのH100 NVL with NVLinkブリッジは、Transformer Engine、NVLink、および188GB HBM3メモリを利用して、最適な性能と容易な拡張性を提供します。H100 NVL GPUを搭載したサーバーは、電力制約のあるデータセンター環境において低遅延を維持しながら、GPT-175Bモデルの性能をNVIDIA DGX A100システムの最大12倍まで向上します。

NVIDIA H100のスペック

フォームファクター	H100 SXM	H100 PCIe	H100 NVL^(*2)
FP64	34teraFLOPS	26teraFLOPS	68teraFLOPs
FP64 Tensorコア	67teraFLOPS	51teraFLOPS	134teraFLOPs
FP32	67teraFLOPS	51teraFLOPS	134teraFLOPs
TF32 Tensorコア	989teraFLOPS^*	756teraFLOPS^*	1,979teraFLOPs^*
BFLOAT16 Tensorコア	1,979teraFLOPS^*	1,513teraFLOPS^*	3,958teraFLOPs^*
FP16 Tensorコア	1,979teraFLOPS^*	1,513teraFLOPS^*	3,958teraFLOPs^*
FP8 Tensorコア	3,958teraFLOPS^*	3,026teraFLOPS^*	7,916teraFLOPs^*
INT8 Tensorコア	3,958TOPS^*	3,026TOPS^*	7,916TOPS^*
GPUメモリ	80GB	80GB	188GB
GPUメモリ帯域幅	3.35TB/s	2TB/秒	7.8TB/s^(*1)
デコーダー	7NVDEC 7JPEG	7NVDEC 7JPEG	14NVDEC 14JPEG
最大熱設計電力（TDP）	最大700W（構成可能）	300～350W（構成可能）	2×350-400W（構成可能）
マルチインスタンGPU	最大7個のMIG @ 10GB		各12GBの最大14のMIG
フォームファクター	SXM	PCIe デュアルスロット空冷	2×PCIe デュアルスロット空冷
相互接続	NVLink：900GB/秒 PCIe Gen5：128GB/秒	NVLINK：600GB/秒 PCIe Gen5：128GB/秒	NVLink：600GB/秒 PCIe Gen5：128GB/s
サーバーオプション	4または16GPU搭載のNVIDIA HGX H100パートナーおよび NVIDIA-Certified Systems 8GPU搭載 NVIDIA DGX H100	1～8GPU搭載のパートナーおよび NVIDIA-Certified Systems	2-4組のパートナーおよび NVIDIA-Certified Systems
NVIDIA AI Enterprise	アドオン	含む	アドイン

* 疎性あり
(*1) HBM帯域幅の総計
(*2) 参考仕様。仕様は変更される場合があります。H100 NVL PCIeカード2枚とNVLink Bridgeを組み合わせた場合の仕様です。

NVIDIA L40S GPU

L40Sは、データセンター用途において比類のないAIとグラフィックスのパフォーマンスを発揮します。第4世代Tensorコアと最適化されたTF32フォーマットのハードウエアサポートにより、AIおよびデータサイエンスモデルのトレーニングを高速化します。

第3世代RTコアは、スループットの向上、レイトレーシングとシェーディングの同時実行機能によって、パフォーマンスが向上しています。レイトレーシングのパフォーマンスとレンダリングの高速化は、エンジニアリングや建設関連のワークフロー、ハードウエアアクセラレーションによるモーションブラーによって、実物に迫るリアルタイムアニメーションを実現します。Transformer Engineは、AIパフォーマンスを劇的に加速し、トレーニングと推論の両方に利用できます。

L40Sは、データセンター対応します。エンタープライズデータセンターの24時間年中無休の運用向けに最適化されており、NVIDIAによって構築、テスト、サポートされ、最大限のパフォーマンス、耐久性を実現しています。最新のデータセンター基準を満たしており、Network Equipment Building System（NEBS）レベル3に対応し、rootによるセキュアブート機能を備えています。信頼性の高い技術により、データセンターに一層のセキュリティを提供します。

NVIDIA L40Sのスペック

GPUアーキテクチャ	NVIDIA Ada Lovelaceアーキテクチャ
GPUメモリ	48GB GDDR6（ECC搭載）
メモリ帯域幅	毎秒864GB
相互接続インターフェース	PCIe Gen4 ×16：毎秒64GB双方向
NVIDIA Ada LovelaceアーキテクチャベースのCUDAコア	18,176
NVIDIA 第3世代RTコア	142
NVIDIA 第4世代Tensorコア	568
RTコアパフォーマンス TFLOPS	212
FP32 TFLOPS	91.6
TF32 Tensorコア TFLOPS	183 \| 366^*
BFLOAT16 Tensorコア TFLOPS	362.05 \| 733^*
FP16 Tensorコア	362.05 \| 733^*
FP8 Tensorコア	733 \| 1,466^*
ピーク INT8 Tensor TOPS ピーク INT4 Tensor TOPS	733 \| 1,466^* 733 \| 1,466^*
フォームファクター	4.4"(H)×10.5"(L)、デュアルスロット
Display Ports	4×DisplayPort 1.4a
最大消費電力	350W
電源コネクタ	16ピン
サーマル	パッシブ
仮想GPU（vGPU）ソフトウエアサポート	あり
サポートされているvGPUプロファイル	仮想^**
NVENC \| NVDEC	3× \| 3×（AV1エンコード／デコードを含む）
信頼の基点（Root of Trust）によるSecure Boot	あり
NEBS Ready	レベル3
マルチインスタンスGPU（MIG）サポート	なし
NVIDIA NVLinkサポート	なし

* 疎性あり
** GPUライセンスガイドを見る

SCSKでは、GPUを搭載する各種AIサーバーを用意しています。

GPU性能を極限まで引き出したいなら…… NVIDIA DGXシリーズへ

システム構成の汎用性と自由度を求めるなら…… HPE ProLiant／Cray XDシリーズへ

NVIDIA AI対応GPU搭載サーバー AI、ディープラーニング、生成AIの用途に応えるGPUサーバー