本文へスキップ

RLHF(人間のフィードバックによる強化学習)とは?

あーるえるえいちえふ

人間の評価学習に組み込んでAIを改善する手法。

Reinforcement Learning from Human Feedbackの略で、人間が評価したAI回答の良し悪しを報酬信号として強化学習することでAIを人間の好みに合わせる手法。

使い方・例文

ChatGPTはRLHFを使って人間の評価者が良い回答を選ぶデータをもとに役立つ回答を学習した。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語