RLHF（人間のフィードバックによる強化学習）とは？

あーるえるえいちえふ

IT・テクノロジー #AI・機械学習

人間の評価を学習に組み込んでAIを改善する手法。

Reinforcement Learning from Human Feedbackの略で、人間が評価したAIの回答の良し悪しを報酬信号として強化学習することでAIを人間の好みに合わせる手法。

使い方・例文

ChatGPTはRLHFを使って人間の評価者が良い回答を選ぶデータをもとに役立つ回答を学習した。

この用語をシェア

𝕏 でポスト LINE

最終更新: 2026年6月25日

関連用語