本文へスキップ

人間フィードバック強化学習とは?

にんげんふぃーどばっくきょうかがくしゅう

人間の好みを報酬信号として活用する強化学習の手法。

AI複数の応答に対して人間が優劣を評価しその評価から報酬モデル学習強化学習でAIを改善することで人間の価値観に沿った出力を生成できるようにする手法。

使い方・例文

ChatGPTはRLHFで人間の好む会話スタイルに合わせるよう調整されている。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語