2025.4.18業界トレンド／展望

マルチモーダルAIとは？身近な事例で解説します！

一般的なAIでは対応できないタスク処理が可能な、「マルチモーダルAI」への期待が高まっている。マルチモーダルAIとは、様々な種類の情報を利用して高度な判断を行うAIを指す。本記事では、身近な事例を用いて、マルチモーダル技術とその活用についてわかりやすく解説する。

目次

マルチモーダルAIが注目される背景
図表解析への活用事例とそのメリット
動画解析による新たな可能性の広がり
最後に

※2025年4月：生成AI領域での活用状況も含め、全体的に加筆・修正いたしました。

1．マルチモーダルAIが注目される背景

これまでの一般的なAIシステムは、主にテキストや画像といった単一の種類の情報源（モーダル）だけを利用して処理結果を出力するものでした。例えば、AIにテキストを入力して要約させたり、AIに画像を入力して特定の物体を検出させたりして、その出力結果を活用するケースです。
しかし、近年ではユーザーが求めるタスクの複雑さが増しており、一つの情報源だけでは複雑なタスクをこなすだけの十分な情報が足りず、求められる出力を出すことが難しくなってきています。
そこで注目されるのがマルチモーダルAI（※1）です。マルチモーダルAIとは、テキスト、画像、動画、音声など複数の異なる情報源（モーダル）を同時に活用して高度な判断や認識を実現する技術です（図1）。
特に、近年の生成AIや大規模言語モデル（LLM：Large Language Model）の技術発展に伴い、ユーザーが自然言語を介してAIに出力したいものや振る舞いを指示することで、柔軟に出力を制御できるようになってきています。同様に、画像や音、映像に対しても同様に処理方法を自然言語で指示して出力が行えるよう、LLMのマルチモーダル対応が進み、マルチモーダルLLM（MLLM：Multimodal Large Language Model）と呼ばれるかたちで活用が始まってきています。
AIのマルチモーダル化が進むことによって、人間がテキスト、画像、動画、音声などさまざまな情報を複合的に捉えて判断・処理しているのと同じように、AIも複数の情報源を活用した複雑な処理が可能となるため、マルチモーダルAIはその処理能力の汎用性が高く注目されております。

図1：シングルモーダルAIとマルチモーダルAIの違い

（※1）マルチモーダルAI

元々は人のコミュニケーションにおいて用いられる言語や身ぶり・手ぶりなどのさまざまな情報伝達手段を意味する「マルチモーダル」という言葉に由来しています。

2．図表解析への活用事例とそのメリット

最近のマルチモーダルAIで特に注目されているのが、図や表のような複雑な視覚情報を含むコンテンツの解析です。従来のAIでは画像中の数値やラベルをただ認識するだけでしたが、マルチモーダルAIは図表の視覚情報とテキスト情報を組み合わせて解析します。
例えば、研究論文、社内の報告書、外部の調査研究レポートなどの文書の内容を読み取り解釈して、ナレッジ整理や意思決定などに活用するシーンにおいて、AIに文書内容を自動的に読解させることができれば、人間が目視で行っていた煩雑な情報処理作業を効率化することができ、属人性の排除や迅速化が効果として期待できるでしょう。
しかし、これらの文書にはテキストだけでなく図や表が含まれているのが一般的であり、文書全体の内容を適切に理解するためには、テキスト文章として表現されない図・表の内容の読解も必須となります。
マルチモーダルAIは、テキストと図・表の両方を取り扱うことのできるモデルがあるため、文書読解に活用することでユーザーが膨大な文書を読解する際の支援として大いに役立てることができます。

図2：マルチモーダルAIの活用により文書の図・表の内容も含んだ読解を実現

3．動画解析による新たな可能性の広がり

さらに、動画解析分野にもマルチモーダルAIの活用が広がっています。これまでの動画解析AIは「映像単体」だけで内容を理解しようとしていました。しかし、動画には視覚情報だけでなく音声やテロップなど、複数のモーダルが含まれているケースがあります。こうした動画中に内包されている音や文字情報も活用することで、例えば異音をトリガーとした事故シーンの抽出や、テロップ内容に基づく動画のサマリ・目次作成などが期待できるでしょう。
それ以外にも、動画ファイルに加えて手引きやマニュアルといった文書ファイルを同時に参照させることで、動画内容と手引きの判定基準を照らし合わせて審査業務を支援させたり、動画内容がマニュアルに沿っているかの確認を行わせたりすることも出来ると考えられます。

図3：マルチモーダルAIの動画への応用イメージ

4．最後に

NTTデータでは、LLMへの応用が進む以前からマルチモーダルAI技術に取り組み、例えば「審査業務」（※2）や「オフィス内行動監視」（※3）に適用してきました。
マルチモーダルAIは、人間が日常的に行っている複雑な情報処理を実現する1つの重要な技術として考えられ、今後もその柔軟な性質から多用なシーンでの活用が期待できます。
今後もこれまでの適用先での活用を深化させるとともに、新たな領域への適用拡大を進めていきます。

（※2）マルチモーダルAI技術が拓く未来

https://www.nttdata.com/jp/ja/data-insight/2019/1024/

（※3）マルチモーダルAIによる行動認識技術～COVID-19対策への適用例～

https://www.nttdata.com/jp/ja/data-insight/2020/1203/

データ＆インテリジェンスについてはこちら：
https://www.nttdata.com/jp/ja/services/data-and-intelligence

生成AI（Generative AI）についてはこちら：
https://www.nttdata.com/jp/ja/services/generative-ai/