人間フィードバック強化学習とは？

Question

人間フィードバック強化学習とは？

Accepted Answer

AIの複数の応答に対して人間が優劣を評価しその評価から報酬モデルを学習し強化学習でAIを改善することで人間の価値観に沿った出力を生成できるようにする手法。

使い方・例文