本文へスキップ

上限信頼区間とは?

じょうげんしんらいくかん

不確かさが高い選択肢を積極的に試す多腕バンディットの探索戦略。

UCBアルゴリズムはこれまでの経験から各選択肢の平均報酬と不確かさを合計したスコアで次の選択肢を決めることで確実に有望な選択肢を選びつつ未知の選択肢も探索する。

使い方・例文

多腕バンディット問題でUCBを使うとあまり試していない広告を積極的に試して最良の広告を効率よく見つける。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語