本文へスキップ

Q学習とは?

きゅーがくしゅう

状態と行動の価値関数を反復更新する強化学習アルゴリズム。

状態-行動ペアの期待累積報酬をQ値として表で管理しベルマン方程式に基づく更新式で繰り返し最適化する強化学習モデルフリーアルゴリズム

使い方・例文

迷路ゲームのエージェントがQ学習で最短経路を自動的に学習する。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語