数値、画像、テキスト、音声などの複数種類のデータ(モダリティー)を組み合わせる、または、関連付けて処理する単一のAIモデル(基本的にはニューラルネットワークのモデル)を指す。
マルチモーダルAIは、汎用型AIに近づくためのひとつのアプローチと見なせる。
テキストから画像を生成するDALL·E 2などが代表的。
マルチモーダルAIに対して、従来通りに1つのモダリティーのみを処理する単一のAIモデルを、シングルモーダルAI(Single modal AI)またはユニモーダルAI(Unimodal AI)と呼ぶ。
また、複数のモダリティーから学習することを、マルチモーダル学習と呼ぶ。