マルチモーダル学習とは？

まるちもーだるがくしゅう

IT・テクノロジー #機械学習

画像・テキスト・音声など複数種類のデータを組み合わせて学習する手法。

テキスト・画像・音声など異なるモダリティを統合して学習することで各モダリティ単独より豊かな表現を獲得しクロスモーダルな検索や理解が可能になる。

使い方・例文

GPT-4Vは画像とテキストを同時に処理するマルチモーダルモデルである。

この用語をシェア

𝕏 でポスト LINE

最終更新: 2026年6月30日

関連用語