NVIDIA Blueprintsで始めるオンプレAI環境構築

2025.10.22

生成AIを活用した業務改善の需要が高まる中、オンプレミス環境でも効率的かつ安全にAI基盤を構築・運用することが求められています。NVIDIAが提供する「NVIDIA Blueprints」は、こうした要件に対応可能な導入テンプレート群であり、企業のAI活用を加速する強力な手段です。

本ブログシリーズでは、NVIDIA Blueprintsおよび関連製品の紹介に加え、オンプレミス環境における具体的な導入手順について解説していきたいと思います。

第一回目となる本記事では、NVIDIA Blueprintsとその関連製品（NVIDIA AI Enterprise、NVIDIA NIM™、NVIDIA NeMo™）の紹介に加え、現在多くの企業で活用が進められているRAG（Retrieval-Augmented Generation）の実装を実現する「NVIDIA RAG Blueprint」を例に、Blueprintの中身について簡単に解説したいと思います。

NVIDIA Blueprintsとは

出典：NVIDIA

NVIDIA Blueprintsは、AIソリューションの迅速な構築・導入を支援するためのガイドとテンプレート群です。これは単なる設計図ではなく、GPU最適化済みの構成ファイル、サンプルコード、ドキュメントを含み、実運用レベルでの再現性と信頼性を重視しています。特にオンプレミス環境では、構築の複雑さやノウハウ不足が導入の障壁になりますが、Blueprintsはその課題を解消します。

NVIDIA AI Enterprise

NVIDIA AI Enterpriseは、NVIDIAが提供する企業向けAIソフトウェアスイートです。NVIDIA NIMやNeMoマイクロサービスを含むソフトウェアツール、ライブラリ、フレームワークで構成されており、AIアプリケーションの開発、デプロイ、拡張を高速化し、簡素化します。

NVIDIA NIM（NVIDIA Inference Microservices）

NIMは、推論用AIモデルをマイクロサービスとして提供するソリューションです。NVIDIAが最適化したモデルを、コンテナベースで即座にAPIとして展開可能にするもので、Blueprintsでは推論部分の迅速な構築に利用されます。

NVIDIA NeMo

NeMoは、NVIDIAが開発したLLM向けのフレームワークです。事前学習済みモデルの微調整（ファインチューニング）や、RAGの実装が容易に行えるライブラリ・ツール群を提供しており、Blueprints内でもNeMoを用いたRAG構築例が提供されています。

NVIDIA RAG Blueprint

本章では、NVIDIAが実際に公開しているRAG Blueprintの中身について解説します。

RAG Blueprintの中身

出典：NVIDIA

上の図はRAG Blueprintのダイアグラムとなります。ダイアグラムには、Blueprint に含まれる主要なツールや大規模言語モデル（LLM）だけでなく、全体の処理の流れが視覚的に整理されています。

こちらのダイアグラムは大きく「Extraction Pipeline」と「Retrieval Pipeline」の2つのパートで構成されており、それぞれ異なる役割を担っています。

① Extraction Pipeline（前処理パート）

この部分では、ユーザがアップロードしたPDF・画像・音声ファイルといった非構造化データを対象に、まず必要な情報の抽出処理が行われます。例えばOCRや音声認識によってテキストデータを生成し、それをNeMo Retrieverが効率的に検索できるようインデックス化します。この前処理によって、多様なデータソースから一元的に知識を取り込む基盤が整います。

② Retrieval Pipeline（検索・生成パート）

前処理で構築されたインデックスを基に、ユーザからの問い合わせに対して適切な情報を検索（Retrieval）し、その情報を元に生成AI（Generation）が回答を生成します。ここではNeMoやNIMなどの複数のツールが連携してリアルタイムに応答を返します。RAGの仕組みを使うことで、GPTのような大規模言語モデル単体では難しい、最新情報を含めた高精度な回答が実現できます。

続いて、各パートの中身について更に詳しく見ていきたいと思います。

処理としては大きく6つのステップ

出典：NVIDIA

処理としては大きく6つのステップに分かれており、各ステップでは以下のような処理が行われています。

ステップ①：データ送信

UIやSDKを介して、ユーザからの音声・画像・テキストなどのマルチモーダルデータをシステムに送信する。

ステップ②：ドキュメント解析とテキスト抽出

音声認識やドキュメント構造解析を通じて、ページ要素・表・グラフィックなどからテキスト情報を抽出する。

ステップ③：DB登録

抽出・ベクトル化されたテキストはVector Databaseに格納され、元データや関連ファイルはObject Storeに保存される。

ステップ④：クエリ送信

ユーザがUIやSDKを通じてクエリを入力し、NeMo Guardrails（任意）による制約管理を経て、Query Processingで前処理が行われる。

ステップ⑤：クエリ検索

クエリは、NeMo Retriever Embeddingによりベクトル化され、検索対象データとの類似性に基づいて検索が行われる。検索結果はNeMo Retriever Reranking によってリランキングされ、関連度の高いドキュメント情報がLLMに渡される。関連ドキュメントに画像が含まれる場合、それらはVLM（任意）によって画像キャプションが生成され、必要に応じてLLMに追加される。