本文へスキップ

マルチモーダル学習とは?

まるちもーだるがくしゅう

画像・テキスト・音声など複数種類のデータを組み合わせて学習する手法。

キスト・画像・音声など異なるモダリティを統合して学習することで各モダリティ単独より豊かな表現を獲得しクロスモーダルな検索や理解が可能になる。

使い方・例文

GPT-4Vは画像とテキストを同時に処理するマルチモーダルモデルである。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語