本文へスキップ

多腕バンディット問題とは?

たうでばんでぃっともんだい

探索と活用のトレードオフを最適化する強化学習基礎問題

複数スロットマシンのどれを選ぶか試しながら累積報酬を最大化する問題で未知の選択肢を試す探索と最良の既知選択肢を使う活用のバランスを学ぶ強化学習基礎設定。

使い方・例文

広告配信でどのクリエイティブを表示するか多腕バンディットで動的に最適化する。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語