オブジェクトの広場はオージス総研グループのエンジニアによる技術発表サイトです

AI

複数モダリティを使う「マルチモーダルAI」の紹介

オージス総研 技術部 データエンジニアリングセンター
堀 裕太

マルチモーダルAIとは、複数の情報(モダリティ)を統合的に処理して、それらを関連付けて利用するAIのことを言います。

従来のAI技術では、画像処理分野では画像(視覚情報)、音声認識分野では音声(聴覚情報)など、1つの情報(モダリティ)を使うことが一般的です。しかし、人間など動物は単一のモダリティに基づいて思考や判断をしておらず、人間のように複数モダリティを利用する技術はAI技術の発展に繋がると考えられます。そのため、複数のモダリティを統合して扱うAI技術として登場したのがマルチモーダルAIです。複数のモダリティを活用することでより正確に予測や推論ができるようになったり、今まで解決できなかった問題を解くことができるようになることが期待されており、これからも様々な研究や論文が発表されていくことでしょう。

本連載ではマルチモーダルAIについて紹介していきます。