強化学習からの人間フィードバックとは?
きょうかがくしゅうからのにんげんふぃーどばっく
人間の評価を報酬とした強化学習でAIを人の好みに合わせる手法。
使い方・例文
InstructGPTはRLHFによって人の指示に従いやすい応答を生成するよう改善された。
この用語をシェア
最終更新:
きょうかがくしゅうからのにんげんふぃーどばっく
人間の評価を報酬とした強化学習でAIを人の好みに合わせる手法。
最終更新: