人間フィードバック強化学習とは? にんげんふぃーどばっくきょうかがくしゅう IT・テクノロジー #機械学習 お気に入り お気に入り 読み上げ 停止 人間の好みを報酬信号として活用する強化学習の手法。 AIの複数の応答に対して人間が優劣を評価しその評価から報酬モデルを学習し強化学習でAIを改善することで人間の価値観に沿った出力を生成できるようにする手法。 使い方・例文 ChatGPTはRLHFで人間の好む会話スタイルに合わせるよう調整されている。 この用語をシェア 𝕏 でポスト LINE 🔗 リンクをコピー コピーしました その他で共有 最終更新: 2026年6月30日