RLHF(人間のフィードバックによる強化学習)とは? あーるえるえいちえふ IT・テクノロジー #AI・機械学習 お気に入り お気に入り 読み上げ 停止 人間の評価を学習に組み込んでAIを改善する手法。 Reinforcement Learning from Human Feedbackの略で、人間が評価したAIの回答の良し悪しを報酬信号として強化学習することでAIを人間の好みに合わせる手法。 使い方・例文 ChatGPTはRLHFを使って人間の評価者が良い回答を選ぶデータをもとに役立つ回答を学習した。 この用語をシェア 𝕏 でポスト LINE 🔗 リンクをコピー コピーしました その他で共有 最終更新: 2026年6月25日