NTT DATA

DATA INSIGHT

NTT DATAの「知見」と「先見」を社会へ届けるメディア

キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2024.11.8技術トレンド/展望

LLMとナレッジグラフが切り拓く、情報検索の新時代

近年、LLM(大規模言語モデル)の飛躍的な進化により、情報検索や質問応答システムの性能が大幅に向上している。しかし、従来のRAG(Retrieval-Augmented Generation:LLMのテキスト生成と外部情報検索を組み合わせる手法)では、情報の断片化や文脈の欠落といった課題が残されている。そこで、ナレッジグラフとLLMを組み合わせた「Graph RAG」という新たな手法が注目を集めている。本記事では、リスク審査やデータの体系化、Graph RAGなどの具体的なユースケースを通じて、ナレッジグラフとLLMの連携による生成AIを活用した情報検索の革新について解説する。
目次

はじめに

近年、GPTをはじめとするLLM(大規模言語モデル)の技術進化が著しく、その関連ビジネスも急速に拡大しています。しかし、LLMをビジネスに活用するにあたって課題も見えてきました。特に、LLMは膨大なデータから文章を生成するのは得意ですが、情報の関連性を的確に把握し、それを活用した検索や評価を行うことは苦手な傾向にあります。

そこで、ナレッジグラフとLLMを組み合わせることで、情報の関連性を抽出し、関係性を含めた検索や根拠に基づく審査を実現するアプローチが注目されています。本記事では、ナレッジグラフとLLMの連携による情報検索の革新について解説し、そのユースケースや今後の展望を紹介します。

ナレッジグラフとは

ナレッジグラフとは、人間の知識をグラフ構造でデータ化したものです。グラフ構築では、「情報」をノード(点)で、「関係性」をエッジ(線)で表現します。ここで、ノードはエンティティ(人物、場所、物事など)を指し、エッジはそれらの間を示します。例えば、「東京は日本の首都である」という情報は、「東京」と「日本」というノードを「首都」というエッジで結びつけます(図1)。

図1:ナレッジグラフ:情報を体系的に連結し、グラフ構造で表すネットワーク

このように、ナレッジグラフは情報同士のつながりを視覚的に表現し、データを体系的に整理する方法です。これにより、情報の関連性を明確に把握でき、複雑なデータ間の関係が理解しやすくなります。

ユースケース紹介

リスク審査

企業における契約書のリスク審査は、重要かつ多大な労力を要する業務です。膨大な契約書の中からリスク要因を見つけ出す作業は非常に負担が大きく、効率化が求められています。ナレッジグラフとLLMを組み合わせることで、契約書に含まれるリスクを自動的に判定し、その根拠を可視化して出力することが可能となります。

当社は以下の手順で契約書のリスク審査の検証を行いました。

  • 1.リスクのパターンの作成:リスクとなる項目を「誰が(主語)」「何をする(述語)」「何に対して(目的語)」という形で整理。また、これらの情報を組み合わせてリスクのパターンを定義。
  • 2.契約書からの情報抽出:契約書の文章から、この「誰が」「何をする」「何に対して」という情報を取り出す。
  • 3.リスクのパターンとの照らし合わせ:取り出した情報がリスクのパターンに当てはまるかをチェック。
  • 4.リスク判定:当てはまる場合は、その部分がリスクであると判定し、その理由も明確に示す。

この手法を用いて、実際の契約書を対象に検証を行った結果、リスク判定精度および審査理由の出力精度が向上することが確認されました。これにより、審査結果の根拠を明確に示せるため、リスク審査業務の効率化と信頼性向上が期待できます。

企業関係のデータ体系化

大量の文書から関連する情報を見つけ出し、それらを自動でナレッジグラフにまとめることで、情報をわかりやすく整理できます。
たとえば、当社の検証では、企業に関するニュース記事を集め、その中から企業同士の関係を取り出しました。結果として、約73%の関係性を正確に抽出できました。この結果からも、人手で行う作業を減らすことが期待できます。

Graph RAGの活用

従来の情報検索手法では、情報がばらばらになっていて、文脈や情報同士のつながりを見落とすことがありました。Graph RAGは、ドキュメント内の情報のつながりをあらかじめナレッジグラフにしておくことで、より具体的で詳細な回答を得ることができます。
たとえば、「この製品の主な不具合は何ですか?」という質問に対して、Graph RAGを使うと、製品に関連するすべての不具合情報をまとめて提供できます。この結果、ユーザーはより正確で包括的な情報を得ることが可能となりました。

Graph RAGと従来RAGの比較

従来RAGの概要と課題

従来のRAGは、LLMが外部のデータ(社内データや専門的な文書)を検索して、回答の精度を高める技術です。具体的には、文書を小さな単位に分けて、それらを数値化します。そして、質問内容に近い文を検索して、回答を作ります。

図2:RAGの仕組み

しかし、この方法では個々の部分だけを見ているため、全体の文脈や情報のつながりを見落とす可能性があります。また、複数の情報を組み合わせる必要がある質問には、十分に答えられないことがあります。

Graph RAGの優位性

Graph RAGは、この課題を解決するためにナレッジグラフを活用します。文書内の「誰が」「何をする」「何に対して」といった情報とそのつながりをグラフで表現し、情報同士の関係を明確にします。

これにより、以下のメリットが得られます。

  • 全体の情報を活用できる:情報のつながりを考慮することで、より正確な回答が可能になります。
  • 複雑な質問にも対応:複数の情報を組み合わせた質問にも答えられます。
  • 判断理由が明確:どの情報をもとに回答したかを可視化できます。

比較検証

Graph RAGの効果を確認するため、「主な不具合は何か?」という文書全体の情報が必要な質問に対して、従来RAGとGraph RAG(本検証では、Microsoft Graph RAGを使用)それぞれの回答の正解率を比較しました。

その結果、図3のグラフに示す通り、Graph RAGが従来RAGの回答精度を上回りました。ナレッジグラフを利用して、文書の情報をグラフ構造で保持することで、従来RAGに比べて、より文書全体からの情報を抽出できたことがポイントです。

図3:検証イメージと結果

一方で、Graph RAGで使用するナレッジグラフの構築にかかるコストが大きいことや、グラフ構築や検索・回答に時間を要するといったデメリットに注意しなければなりません。文書中の特定の情報のみを参照することで回答できるような質問に対しては、従来RAGも十分有用であるという結果も得られていることから、ユースケースに応じてどちらの手法を用いるべきかを見極める必要があります。

今後の展望

技術の進化と新たな可能性

技術の進化により、ナレッジグラフとLLMの連携がさらに新たな可能性を生み出します。例えば、以下のことが期待されます。

  • リアルタイムでの更新:データの変化にリアルタイムですぐ対応できるようになります。
  • マルチモーダルへの対応:画像や音声認識などと組み合わせることで、さらに便利になります。

企業への影響と期待される成果

ナレッジグラフとLLMを活用することで、企業は以下のメリットを得られます。

  • 業務の効率化:リスク審査や情報抽出の作業が効率化されます。
  • より良い意思決定:信頼できる情報をもとに、迅速で正確な判断ができます。
  • 新しいビジネスの創出:高度な情報分析を活かした新しいサービスや製品が生まれます。

しかし、導入には費用や専門知識が必要なので、計画的に進めることが大切です。

おわりに

ナレッジグラフとLLMの組み合わせは、情報の関連性を活用した高度な情報検索や評価を可能にします。これにより、従来の手法では難しかった網羅的な情報活用や、根拠に基づく自律的な判断が実現できます。
今後も技術は進歩し、さらに性能は向上していくでしょう。企業はこの技術を積極的に取り入れ、競争力を高めたり、新しいサービスを提供したりすることが求められます。

生成AIの発展は著しく、これからも情報のアップデートが必要です。NTTデータグループでは、お客さまの業務に最適なシステムの提案やシステム開発の支援を行うために、これからもさまざまな生成AIの調査と検証を継続してまいります。生成AIの活用についてお困りの際は、NTTデータグループにお声がけください。

お問い合わせ