本文へスキップ

強化学習からの人間フィードバックとは?

きょうかがくしゅうからのにんげんふぃーどばっく

人間の評価を報酬とした強化学習AIを人の好みに合わせる手法。

人間のアノテーターが複数の応答を比較して優劣をつけた評価データから報酬モデル学習PPOなどの強化学習アルゴリズムでポリシーを最適化することで人の価値観に沿ったAIを作る手法。

使い方・例文

InstructGPTはRLHFによって人の指示に従いやすい応答を生成するよう改善された。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語