本文へスキップ

PPOとは?

ぴーぴーおー

安定した方策更新を行う近接方策最適化アルゴリズム

Proximal Policy Optimizationの略で方策の更新幅を制限するクリピングを使い学習を安定させる強化学習アルゴリズムでOpenAIのRLHFにも採用されている。

使い方・例文

ChatGPTの人間フィードバックによる強化学習にはPPOが使われている。

この用語をシェア

𝕏 でポスト LINE

最終更新:

関連用語