上限信頼区間とは？

じょうげんしんらいくかん

IT・テクノロジー #機械学習

不確かさが高い選択肢を積極的に試す多腕バンディットの探索戦略。

UCBアルゴリズムはこれまでの経験から各選択肢の平均報酬と不確かさを合計したスコアで次の選択肢を決めることで確実に有望な選択肢を選びつつ未知の選択肢も探索する。

使い方・例文

多腕バンディット問題でUCBを使うとあまり試していない広告を積極的に試して最良の広告を効率よく見つける。

𝕏 でポスト LINE

最終更新: 2026年6月30日