AI開発には膨大なデータを収集・蓄積・連携するストレージ環境が不可欠

IT専門調査会社 IDC Japan 株式会社が、2023年9月26日に発表した「最新のAIシステム市場における産業分野別/ユースケース別の予測」(※1)によると、AIシステム市場のグローバル支出額市場規模は2023年に前年比29.3%増の1,665億米ドルに達すると予測し、国内市場においても前年比31.4%増の6,837億円に達するとしています。

しかしAI開発は一朝一夕に取り組むことが困難ともいえます。その理由はデータです。AI開発の基本的な流れとしては、①データの効率的な収集と蓄積、②目的に応じたデータ処理、③処理結果の出力といったプロセスが必要です。特に①のデータ収集においては自社内に蓄積しているデータのみならず、インターネット上に公開されている情報や開発に必要な特定情報など外部に存在するデータも含めて、膨大なデータを収集・蓄積・連携することが必要になります。それがAI開発の精度実現に直結するからです。

そうしたAI開発基盤の構築においては、MLOps(※2)を効率的に実践する高い計算能力を備えたGPU(画像処理専用プロセッサ)搭載サーバが必須ですが、それと同様に重要なのはAI開発に必要な膨大なビッグデータを保存・運用できる高性能なストレージの存在です。

※2
機械学習の予測モデルをビジネスに適用するために開発・デプロイ・運用を効率化する手法。機械学習(Machine Learning)と運用(Operations)を組み合わせた造語。

AI開発者がモデル開発に集中できインフラ管理・運用の手間を削減できるシステム

では、AI開発基盤に必要なストレージインフラとはどのようなものでしょうか。SCSKでは実際にお客様のご要望をまとめてみました。

AI開発者の声

  1. 簡単に扱えて自由にリソース割り当て可能であること
  2. パイプライン(学習データ収集~モデルの再学習~再学習済みモデルによる予測の処理を自動化して継続的に実行するシステム)と自動化ツールとの連動が可能であること
  3. オンプレミス環境とクラウド環境で使い勝手を共通化しリファクタリング(ソフトウェア内部構造の整理)が不要なこと

インフラ管理者の声

  1. ストレージプロトコルは複数必要であること
    (例;学習データはNFS、データレイクはAmazon S3、周辺ツールはデータベースなどに使い分け)
  2. 扱うデータ量は流動的かつ予測しづらいため、短いリードタイムで拡張できること
  3. CSI(Container Storage Interface)がサポートされたKubernetes(コンテナ管理システム)が利用できること(コンテナベースのアーキテクチャを採用した場合)
  4. AI基盤は構成が複雑なため、ストレージインフラはパッケージ化された構成であること
  5. サポート品質が充実していること

このように、ストレージは高性能であることはもちろんですが、AI開発者がモデル開発に集中でき、インフラ管理・運用の手間を削減できるシステムを望んでいることが浮き彫りとなりました。

AI開発を加速させる「NetApp ONTAP AI」でビッグデータを管理

SCSKでは、AI開発基盤としてNetAppの「AI開発基盤向けソリューション」をお勧めしています。NetAppはエンタープライズクラスのストレージサービスで有名ですが、2019年から7つのAIアワードを受賞するなど、数百の公開ドキュメントと30人以上の専用AIチームメンバーによる、4年間のAI知見を蓄積しています。また、GPUの最大手NVIDIA社のトップパートナーであり、NVIDIA社との長年の継続的な開発を行ってきた結果、330を超えるワールドワイドのお客様と、前年比50%以上の収益成長を実現している点もポイントといえます。

NVIDIA & NetApp 長年の協業の系譜

NVIDIA & NetApp 長年の協業の系譜

NetApp ONTAP AI

NetApp ONTAP AI

図1:「NetApp ONTAP AI」はデータから真の価値をスムーズに引き出すために開発したAI開発基盤向けソリューション

中でもオンプレミスAI開発基盤向けソリューション「NetApp ONTAP AI」は、クラウドとオンプレミスをシームレスに連携するAI プラットフォーム「NVIDIA DGX」とNetAppストレージをベースとするAI/ML用実証済みアーキテクチャを採用。設計の複雑さを解消して素早く導入可能なシンプルさと、ビジネス成長に併せたスモールスタートから大規模ワークロードまでもカバーするパワフルさ、そしてエッジ~コア~クラウド間でデータをインテリジェントに管理できるインテグレーテッド性能を併せ持つことで、AI開発を加速させるデータ管理機能を提供します。

図2: NetAppの「AI開発基盤向けソリューション」は、Edge/Core/CloudのAIデータパイプライン全体において、ハードウェアとソフトウェアの両面から様々な付加価値を提供可能

図2: NetAppの「AI開発基盤向けソリューション」は、Edge/Core/CloudのAIデータパイプライン全体において、ハードウェアとソフトウェアの両面から様々な付加価値を提供可能

AI開発にNetAppを活用しMLOpsツール連携による開発サイクルを加速

NetAppのAI開発基盤向けソリューションは、以下のようなLLM/生成AI開発時のストレージにおける5つの課題を解決します。

1 高速I/Oの実現

これまでは複数のGPUサーバからの処理によってストレージ性能がボトルネックになっていましたが、GPU性能をフルに引き出す高速I/Oによってスループットを171GiB/s 実現しました(NVIDIA「Magnum IO GPUDirect Storage」使用時)。

2 説明可能性、トレーサビリティ

AIの説明可能性を確保するため、モデルと併せてテラバイトクラスのデータセットも容量消費せずにバージョニングが可能です。

3 MLOps/開発サイクル自動化

データ移動や複製、バージョニングなどの操作は、ストレージの専門知識がなくてもMLOps/パイプラインツールで自動化できます。

4 ハイブリッド/マルチクラウドのデータ連携

オンプレミス環境とクラウド環境の間で高速・効率的かつシームレスにデータ連携するのでボトルネックを発生させません。

5 大規模分散学習に適したアーキテクチャ

トレーニングの度にデータレイクから大量のデータセットをロードしても、「NetApp ONTAP AI」ならばGPUへのデータ移動が不要なため、トレーニング処理時間を大幅に短縮できます。

AI開発にNetAppをご利用いただくことで、MLOpsツール連携による開発サイクルを加速し、データバージョニング、ハイブリッド/マルチクラウド環境におけるデータ連携の効率化、そして高いROI(投資効果)を実現できます。

SCSKが提供する「NetApp ONTAP AI」の詳しい情報については下記のフォームからお問い合わせください。