• レイクハウス
  • インタビュー
  • Databricks
  • AIデータ基盤

Databricksが示す「成果を出すAI活用」、ユースケースから紐解くAI時代に求められるデータ基盤とは?


                                                                        databricks_article.webp

AI活用が企業の大きなテーマとなる中、立ちはだかっているのが「データの壁」です。AIで具体的な効果を出すには社内のデータ活用が不可欠であり、そのためにデータ基盤の整備に着手する企業が増えています。しかし、非構造化データの扱いやリアルタイム性、厳格なデータガバナンスなど、従来型のデータ基盤では対応しきれない課題が増えています。

その解決策として期待されているのが、レイクハウス(※)という新たな概念を打ち出した「Databricks」です。データレイクの柔軟性とデータウェアハウスの信頼性を兼ね備え、AI活用を前提としたデータ基盤として注目を集めています。

こうした中、SCSKでは2024年に経営統合を発表したネットワンシステムズと協業し、企業のAI活用をトータルに支援する体制を整えました。データ基盤を担当するSCSK、そして自社で実際にDatabricksを活用した実績を元にAI実践を担うネットワンシステムズ。両社の対談から、RAG(Retrieval-Augmented Generation:検索拡張生成)や生成AIの実装まで最短距離で到達する要件と体制を探ります。

※レイクハウス:「データレイク」と「データウェアハウス」を統合した次世代のデータ基盤モデル。構造化・非構造化データの両方に対応。

ネットワンシステムズ株式会社 ビジネス開発本部 イノベーション推進部長 門脇 広平 氏
ネットワンシステムズ株式会社
ビジネス開発本部
イノベーション推進部長

門脇 広平 氏
ネットワンシステムズ株式会社 ビジネス開発本部 イノベーション推進部 データ+AIチーム マネージャー 山口 智史 氏
ネットワンシステムズ株式会社
ビジネス開発本部
イノベーション推進部
データ+AIチーム
マネージャー

山口 智史 氏
SCSK株式会社 ITインフラサービス事業グループ ITインフラ・ソフトウェア事業本部 データ・ミドルウェア部 部長 奥 浩史
SCSK株式会社
ITインフラサービス事業グループ
ITインフラ・ソフトウェア事業本部
データ・ミドルウェア部
部長

奥 浩史
SCSK株式会社 ITインフラサービス事業グループ ITインフラ・ソフトウェア事業本部 データ・ミドルウェア部 第三課 課長 嶋田 剛志
SCSK株式会社
ITインフラサービス事業グループ
ITインフラ・ソフトウェア事業本部
データ・ミドルウェア部
第三課 課長

嶋田 剛志

「効果の出る」AI活用を進めるには、データ基盤整備が必要不可欠

「効果の出る」AI活用を進めるには、データ基盤整備が必要不可欠

データ活用やデータ基盤の重要性自体は長く叫ばれていますが、そこに「AI」のキーワードが加わったことが、近年の大きな変化です。生成AIの登場によってデータ活用のハードルは低くなったものの、業務にあわせて効果が出るように使いこなすには、自社のデータを「AIが使える形」に整えることが欠かせません。

山口氏 簡単な文章や画像の生成、議事録の作成など、汎用的な生成AIの活用は多くの企業で進んでいます。その次のステップとして、企業内のドキュメントなど自社独自のデータベースを元に生成AIに回答させる「RAG」が注目されています。しかし、実際に取り組んでみると回答精度が課題になり、データの重要性が一段と増しています。「AIが使える形」でデータをどれだけ用意できるかが勝負どころです。現在、多くの企業が「社内に活用可能なデータが揃っているか」という課題に直面しているのではないでしょうか。

嶋田 「AIを使いたくても活用法が分からない」という悩みもよく聞きます。一方で、データ統合やデータ基盤の整備に向けた企業の意欲は高まっており、その先でAI活用が進むと考えています。もちろん、データ基盤整備といっても企業ごとに状況は異なります。だからこそ、AI活用の目的から検討するといった上流フェーズからの相談が増えています。AIによって、企業の独自性や価値を高めようとする先進的な取り組みへのマインドが強まっていると感じます。

目的→データ→基盤の順で進める:アンチパターンを避けるデータ統合

目的→データ→基盤の順で進める:アンチパターンを避けるデータ統合

AI活用を見据えたデータ基盤の構築は、従来とは異なり「非構造化データ(メールやオフィス文書など)」の扱いが必要になるなど、一筋縄では進みません。さまざまな課題がある中で確実に進めるためには、データ基盤の構築とAI活用の目的を明確にすることが重要です。

嶋田 技術的な観点では、前処理として散在したデータをどう収集するかが課題です。特に最近は、夜間バッチ処理からリアルタイム処理への切り替えなど、データの“鮮度”が重要視され、対応できるアーキテクチャや処理スピードに耐えうる基盤が必要になります。また、組織ごとにデータがサイロ化していることも珍しくなく、「同じデータのはずなのに少しずつ数字がズレる」など、簡単には統合できません。

 そういった時こそ、目的を明確にすることが重要です。「目的なきデータ統合」はアンチパターンとされており、データ収集は闇雲に行うのではなく、明確な目的を持って進める必要があります。技術的な話の前に、ビジネス観点で「どの意思決定を早くしたいのか」などを言語化し、そこから「どのデータが有効か」を逆算するべきでしょう。

山口氏 生成AIではメールやオフィスドキュメントなどの「きれいになっていない」非構造化データをどう使うかがポイントですが、その前に「そもそもどんなデータを持っているか」の把握が重要になります。まず現状の業務を分析し、どの業務をAI化できるかを検討した上で、「それに使えるデータは何か」「そのデータは存在するのか」の確認が欠かせません。

「Databricks」が選ばれる理由:保管・加工・運用からデータガバナンスまで、AI活用に必要なものが揃う

「Databricks」が選ばれる理由:保管・加工・運用からデータガバナンスまで、AI活用に必要なものが揃う

目的を明確にし、収集すべきデータを検討する中で、構造化・非構造化データの取り扱い、大規模データの処理、リアルタイム性などの技術的なハードルも出てきます。その特長は、Databricksが打ち出した「レイクハウス」という新たな概念にあります。構造化データを扱うデータウェアハウスと、非構造化データを含めて格納するデータレイクを掛け合わせたアーキテクチャで、構造化データから非構造化データまでデータの種類を問わず1つのプラットフォームで管理し、データのAI活用を加速します。

山口氏 「生成AIを活用したい」という時に、レイクハウスアーキテクチャをベースに、データの格納から加工・分析・運用、さらにAI関連の機能まで、必要なものがすべてワンストップで提供されていることがDatabricksの最大の価値です。構造化データも非構造化データも、格納さえすれば生成AIで活用できるように変換してくれるため、初期導入のスピードが圧倒的に早くなります。また、他のクラウドとの連携機能も標準で付いており、連携コネクタの開発を意識することなく活用できるメリットも大きいですね。

門脇氏 Databricksは国内の大手企業への導入実績もあり、エンジニアによるサポートも充実しています。ネットワンシステムズでDatabricksを導入・活用した際も、豊富なベストプラクティスをベースにしたナレッジを提供いただき、参考になりました。

嶋田 特に注目すべきは、日本企業が重視するデータガバナンスに関する機能が統合されている点です。データの発生元や変換のプロセス、保管先などのライフサイクルを可視化するデータリネージ、データカタログ管理、アクセスコントロールなど、データガバナンスに必要な機能が網羅されています。これにより「どのデータを誰に見せるか」といった厳格な管理が容易になります。
AIはいかに広く活用できるかが重視されますが、個人情報などの「見せてはいけないデータ」のセキュリティを担保しなければなりません。この相反する目的を、複数サービスを組み合わせるなどの手間をかけずに実現できる点は魅力です。セキュリティ面も非常に強固で、データを安全に格納する「保管庫」としても有効であると期待しています。

Databricksを詳しく知りたい方はこちら!

社内RAGチャットボットにDatabricksを採用。問い合わせ回答時間を20%短縮

社内技術Q&A支援機能(既存業務フロー)

※出典:ネットワンシステムズ、自社LLMシステム「NELMO」を運用開始 | ネットワンシステムズ

ネットワンシステムズでは、Databricksを導入し、社内向けチャットボットの基盤として実際に活用を進めています。用途は大きく分けて2つ。1つは、顧客からの問い合わせ対応業務を支援する「保守業務支援」。もう1つは、営業担当からエンジニアに寄せられる社内問い合わせにAIチャットボットで対応する「技術ナレッジ活用」。いずれも過去のメールやメーカーの公開情報などを元にRAGで実装しています。

山口氏 保守業務支援では、オペレーターの対応品質を均質化することを目指し、顧客からの問い合わせ内容をそのまま入力するだけで、生成AIが一次回答を出力するツールを実装しました。これは主に過去の保守対応の相談・回答メールをベースにしており、20年以上の保守業務を通じて蓄積されたメールデータは約400万件にのぼります。これほどの大規模なデータに対応できる基盤となると、Databricks以外に選択肢がありませんでした。
膨大なデータを取り込んだ上で、回答フォーマットも指定することで、原因・対策・メーカーのバグ情報などの必要な要素が揃った状態で出力され、回答品質も大きくぶれません。結果的に、問い合わせを受けてから一次回答を出す時間を約20%短縮でき、顧客満足度の向上にもつながっています。

門脇氏 技術ナレッジの活用については、メーカーの公開情報とメールデータを組み合わせることで回答精度を高めています。たとえば、複数の異なるメーカーの製品やサービスを組み合わせたシステムのトラブルに関する情報の多くは、担当者間の送受信メールに眠っています。メーカーの公開情報にこのメールデータを加えることで、さまざまな製品を扱いながら蓄積してきた「マルチベンダー」としての知見をより効果的に活用できるようになりました。
運用開始から約1年が経過し、最初は“新入社員程度”の精度だったものが、フィードバックを繰り返すことで現在は中級レベルにまで育ってきました。今後もさらに改善されると期待しています。

開発基盤やデータ高速処理、ドキュメント活用基盤など、多様なユースケースに有効

開発基盤やデータ高速処理、ドキュメント活用基盤など、多様なユースケースに有効

Databricksはダッシュボードによる一元管理と運用性の高さも評価されています。この環境はRAGによるチャットボットだけでなく、幅広い用途に活用できます。

山口氏 管理を一元化できるメリットも見逃せません。データベースの冗長化やパッチ適用も意識せずに使えますし、新機能もキャッチアップしやすい。チャットボットのような特定用途から始めても、同じ環境を横展開しやすいのが利点です。

門脇氏 ダッシュボードも非常に便利です。利用状況をBIで可視化・分析し、社内への効果説明にそのまま活用できます。さらに、スクリプト作成などの機能も同じダッシュボードから利用できます。
ネットワンシステムズでは保守担当のメンバーがスクリプト開発から担当していますが、AIによるコーディング支援機能も搭載されており、少ないメンバーでも効率的な運用が可能です。現状は一部の業務での活用に留まりますが、今後はエンジニアの設計・実装・テストといった一連の業務を、すべてDatabricks上に集約したいと考えています。設計段階で、過去の保守サポート情報を元に「この設計は将来的なトラブルにつながる可能性がある」とAIがアドバイスしてくれるような環境が理想ですね。

嶋田 それが実現できれば素晴らしいですね。その他にも、Databricksはデータ処理性能そのものが高いため、「夜間バッチ処理が間に合わなくなったので、基盤を刷新したい」というケースにも有効です。データ基盤としての処理高速化やリアルタイムでのデータ連携でも、Databricksの価値は大きいでしょう。
また、非構造化データに強いという特長を活かし、製造業ではWordやPDFなどのドキュメントデータをデータ化して検証する基盤にDatabricksを検討している企業もあります。最終的にAIを組み合わせて活用したいというお客様には、まずDatabricksを提案することが多いです。

 繰り返しになりますが、データを収集・活用する上で大きな課題の1つはガバナンスです。データを広く活用したいAIのニーズと、アクセス権限を厳格に管理したいニーズ。この相反する要望を両立させるには、「見せてもよいデータだけを見せる」という高度なガバナンス機能を標準で搭載するDatabricksに落ち着くのではないでしょうか。

データ基盤からAI活用・実践まで、ワンストップでカバーできる体制を実現

切っても切れない密な関係にある「データ基盤」と「AI活用」。SCSKとネットワンシステムズの協業により、この両面を一貫してサポートする体制が整いました。SCSKによる支援の中核となるのがデータ統合オファリング「NebulaShift di」です。Databricksを中心に、データ接続やアプリケーション連携などの周辺サービスまで含めて提供し、さらにAI活用の実践についてはネットワンシステムズがサポートすることで、お客様の最終的な価値創出まで伴走します。

NebulaShift di 全体像

 「データ基盤」と言うとデータを保管するイメージが強くなりますが、NebulaShift diではデータの入口(取得・連携)から出口(RAG・可視化など)までを網羅した次世代のデータ基盤構築をコンセプトにしています。クラウドネイティブなAPI連携やゼロトラスト前提のセキュリティも踏まえ、その上で、自社での実践を通してAI活用のノウハウを蓄積しているネットワンシステムズと連携し、最適な形を提案します。

門脇氏 ネットワンシステムズのDatabricks活用事例を知り、生成AIに興味を持たれた企業には、データ基盤が必要になったタイミングでNebulaShift diによるベストプラクティスを提案します。両社が持つ生成AIとデータ基盤のノウハウを組み合わせられることが、私たちの最大の強みです。
また、AI活用では投資対効果が重視されるため、将来的にはクラウドとオンプレミスのハイブリッド構成も視野に入るでしょう。その際、必要となるアプリケーション開発まで対応できるSCSKは心強い存在ですし、私たちが提供するネットワークやオンプレミスのインフラを含めてトータルにカバーすることが可能です。生成AIは一度導入して「こんな分析ができた」で終わるものではありません。活用の幅を広げる継続的な提案など、長くお付き合いできる体制が整ったと思います。

SCSKとネットワンシステムズの協業イメージ

ネットワンシステムズは、自らが「カスタマーゼロ」として新しい技術を積極的に取り入れています。私たちの実践を通じて、お客様が投資効果を早期に検証できることは大きなメリットになるはずです。最新技術を迅速にビジネスに適用できるスピード感こそが、私たちが提供できる価値だと考えています。

 NebulaShift diとしてブランド化したことで、SCSK社内に点在していたナレッジが集約されるようになりました。AI活用はクラウドネイティブなAPI連携によるアプリケーションが主流になり、開発スピードはさらに加速します。今後は、ビジネスコンサルティングからシステムに落とし込むところまで発展させていければと考えています。その際は当然、ネットワークやセキュリティまで考慮する必要があり、そこにはネットワンシステムズのナレッジが活かされます。
クラウドネイティブな構成では境界型セキュリティは通用しません。ゼロトラストを前提とした設計が必要です。ネットワンシステムズの実践に基づいたナレッジもベースに、両社の協業によってベストプラクティスを提案していきます。

最新情報などをメールでお届けします。
メールマガジン登録

×