強化学習からの人間フィードバックとは？

Question

強化学習からの人間フィードバックとは？

Accepted Answer

人間のアノテーターが複数の応答を比較して優劣をつけた評価データから報酬モデルを学習しPPOなどの強化学習アルゴリズムでポリシーを最適化することで人の価値観に沿ったAIを作る手法。

使い方・例文