マルチモーダルAIとは？歴史、実用化の事例、今後の展開を解説！

2022 10/02

2022.08.07 2022.10.02

人工知能の技術的進歩が著しい近年において、「マルチモーダルAI」という言葉を耳にしたことがある人も多いのではないでしょうか。マルチモーダルAIとは複数のモダリティ（様式）からの情報入力をもとにして、総合的なデータ分析を可能にした人工知能です。

今回はマルチモーダルAIという用語の意味や研究の歴史を解説したうえで、実用化の事例や将来的な展望についても紹介します。「マルチモーダルAI」という言葉を初めて聞く方でも簡単に理解できるように説明しておりますので、ぜひ最後までご覧ください。

マルチモーダルAIとは？

マルチモーダルAIの用語を理解するときには「マルチ／モーダル／AI」と、単語ごとに分解して考えるのがおすすめです。シングルの対であるマルチ、情報提供の手段を表すモーダル、人工知能を示すAIというように分解できます。ここからはそれぞれの単語の説明とマルチモーダルAIの5つの研究テーマについて紹介します。

モーダルとは情報提供の様式

「モーダル」の直訳は「様式の」「機械の運動方式の」というような意味です。例えば視覚の情報を提供するモダリティ（様式）は映像ですし、聴覚の情報を提供するモードは音声です。

つまりモーダルとは、人間が持つ五感のようなセンサーのことを指します。マルチモーダルAIでは複数の種類のモダリティ（様式）のセンサーを使って、人間の柔軟性に近い判断をAIに学習させることができるのです。

対義語はシングルモーダルAI、ユニモーダルAI

マルチモーダルAIの対義語は「シングルモーダルAI」または「ユニモーダルAI」です。データを抽出するモダリティ（様式）が複数ある場合には前者、一つしかない場合には後者というようにして分けられます。

マルチモーダルAIは、複雑な事象に対して、柔軟に対応することを目指した「汎用型AI」の実現に向けた研究プロセスの中で、シングルモーダルAIが進化して生まれた概念です。つまり両者とも汎用型AIの完成を目指す中で生まれたという意味では共通であり、進度の違いによって呼び名が変わっているに過ぎません。

マルチモーダルAIの5つの研究テーマ

こちらの論文によると、マルチモーダルAIには異なるモダリティ（様式）のデータを同時に扱うことができるのか、組み合わせる方法や優先すべきデータの選出はどのように設定するかなど、5つの研究テーマに分かれています。

研究テーマ	内容
Representation（表現）	複数のモダリティのデータをどのように表現し要約するかという問題。
Translation（変換）	あるモダリティのデータを別のモダリティのデータに変換できるのかという問題。
Alignment（アライメント）	モダリティ間の関係性を明らかにして行くことができるかという問題。
Fusion（融合）	あらかじめ予測をするときに複数のモダリティからデータを統合することができるかという問題。
Co-learning（共学習）	推論モデルを別のモダリティに伝えることでモダリティ間の知識の共有が可能になるのかという問題。

それぞれの研究テーマは相互に影響しあっているため、一つの問題を解決しても別の問題も同時に解決しないと汎用型AIの実現には至りません。またテーマごとにも研究の進度や歴史が異なっているという特徴もあります。

参考：AI論文「Multimodal Machine Learning: A Survey and Taxonomy」

マルチモーダルAIの歴史

マルチモーダルAIの全体像を掴むために、AI研究の歴史を学ぶ必要があります。ここからは「マルチモーダルAI」という概念が生まれた経緯について、1986年と2013年の2つの転換点を紹介しながら解説していきます。

1986年：複数データの認識

「マルチモーダルAI」という言葉が日の目を浴びだしたのは最近のように感じる方も多いでしょうが、実は1986年からマルチモーダル学習の走りとなる研究は始められています。当時はシングルモーダル学習の補佐的なデータを提供することを目的として複数のモダリティを組み合わせることが課題でした。

例えば大音量で会話ができない環境の中、人間は唇の動きや形から言語を認識しています。この技術をAI研究にも応用したいと研究者たちは考えたのです。

2013年：人間の感情認識

2013年にはテキストと表情の組み合わせを実現するための研究が進められていきました。例えば任意でテキストを入力して喜怒哀楽の表情を選択すると、その表情を作ったアバターがテキストを読み上げるということができるようになったのです。

その後人間の表情、音声から感情を読み取るモダリティが開発され、リアルタイムで人間の表情をアバターに投影することが可能となりました。マルチモーダル学習は人間の感情認識のためのデータ分析の研究で副次的に進められていったのです。

マルチモーダルAIの実用化の事例

マルチモーダルAIは1980年代後半から研究が進められて、現在では様々な分野で実用化されています。ここからはマルチモーダルAIを使った具体的な事例を4つ紹介します。

【事例1】防犯カメラへの応用

引用：NTTデータ

NTTデータでは音声、画像認識の2つのモダリティ（様式）を搭載した防犯カメラを開発しています。例えばビルのエントランスでたむろしている人、騒がしい音量の両方を検知したときに、管理室に緊急指令を届けることが可能です。シングルモーダルAIでは認識できなかった欠点をマルチモーダルAIを搭載した防犯カメラで補うことで、従来のアラート付き防犯カメラより精度の高い状況判断が可能となりました。

参考：NTTデータ「総合俯瞰、総合判断が求められる業務にAIを適用するためのキーテクノロジー」

【事例2】サッカーの選手、試合分析

マルチモーダルAIはサッカーなどのチームスポーツでも応用されています。フィールドのセンサーやレーダー、空撮映像やGPSのほかにも腕や胸につけるウェアラブルセンサーを使って複数のモダリティ（様式）での情報収集をすることで、選手個人の運動量や体調をリアルタイムで確認できます。

また効果的な戦術の落とし込みもマルチモーダルAIによって実現できるでしょう。実際にJリーグでもGPSとウェアラブルセンサーを応用させたトラッキングシステムを導入しています。今後データの蓄積が起きることで、マルチモーダルAIの精度がますます高くなると期待できます。

参考：Jleague「トラッキングデータ」

【事例3】フリマアプリの出品管理

24時間誰でも出品可能なフリマサイトの管理にもマルチモーダルAIは使われています。例えば出品者が偽物のブランド商品を出品した場合、画像識別をするモダリティが視覚的な側面から、文章判断をするモダリティがハッシュタグや商品説明欄から正しい出品であるかどうかの判断をしています。

マルチモーダルAIが不正な出品と判断した商品については人間が調査、対応するという仕組みがすでに導入されています。これにより人間のオペレーターが偽物の商品をあぶりだす作業を軽減することができるようになりました。

【事例4】自動運転の搭載

引用：トヨタ自動車

自動車の自動運転研究は近年の世界的なトレンドです。実は自動運転にもマルチモーダルAIは不可欠となります。

例えば人間が自動車を運転するときに、周囲に障害物や人がいないかを目視で確認して、踏切に入るときには電車の音を聞き取ります。また路面の状況や気候によっても運転方法や心得を変化させるでしょう。このように人間は五感を駆使して複雑な状況判断を必要とする自動車の運転を行っているのです。

人間の視覚、聴覚、感覚に近いモダリティを組み合わせたマルチモーダルAIを使えば、白線に沿った自動車の走行や障害物を認識してブレーキをかける機能が自動車に標準搭載される未来もそう遠くはないでしょう。

参考：トヨタ自動車「トヨタの安全技術 | 高速道路を走るとき」

今後の展望

マルチモーダルAIは深層学習（ディープラーニング）との融合によって、精度の高い判断が可能となるでしょう。また研究が進むにつれロボットセンサーの進化やアウトプットの質が向上することも期待できます。ここからはそれぞれの内容について詳しく解説していきます。

深層学習（ディープラーニング）との融合

マルチモーダルAIは深層学習（ディープラーニング）との融合を通じてさらなる進化が期待されています。深層学習とはニューラルネットワークと呼ばれる人間の脳の仕組みを再現した学習方法です。

まずは大量のデータをインプットさせ、その後は自動で機械学習を続けていくのが特徴です。複数のモダリティ（様式）のデータを深層学習の教師データとすることで、今以上に精度の高い判断が可能なAIが誕生する可能性があります。

ロボットセンサーの進化

マルチモーダルAIがさらなる進化を遂げるためには、インプットの質を高める必要があります。そこで焦点に当てられるのがロボットセンサーです。

ロボットセンサーの技術が向上すれば、正確なデータを効率的にインプットすることができると考えられています。人間と同等またはそれ以上の視覚センサーや聴覚センサーを持つロボットの出現は自然の流れと言えるでしょう。

人間に近いアウトプットができるAIの出現

マルチモーダルAIによって多様なモダリティ（様式）のデータを効果的に分析することができれば、アウトプットの質も上がるでしょう。例えばロボットがオリジナルのストーリーを作成して映画を作成したり、人間の動きや気温などの外的要因によって音楽を編集して流したりするような人間に近い感覚を持つAIが出現することも夢ではありません。目の前にある作品が人間の手によって作られたものか、マルチモーダル学習を行ったAIによって作られたものかますます見当がつかなくなることでしょう。

マルチモーダルAIまとめ

マルチモーダルAIとは複数のモダリティ（様式）からの情報入力をもとにして、総合的なデータ分析を可能にした人工知能です。人間が持つ五感のようにマルチモーダルAIも複数のモダリティのセンサーを駆使してデータを抽出しています。

入力されたデータは深層学習（ディープラーニング）と融合して、実用化に向けた取り組みが進められるでしょう。ロボットセンサーが進化してインプットの質が向上したり、それに伴って人間の感覚に近いアウトプットが可能になったりします。汎用型AIの実現に向けて、今後もマルチモーダルAIの研究進捗から目が離せません。