PPOとは？

ぴーぴーおー

IT・テクノロジー #機械学習

安定した方策更新を行う近接方策最適化アルゴリズム。

Proximal Policy Optimizationの略で方策の更新幅を制限するクリッピングを使い学習を安定させる強化学習アルゴリズムでOpenAIのRLHFにも採用されている。

使い方・例文

ChatGPTの人間フィードバックによる強化学習にはPPOが使われている。

𝕏 でポスト LINE

最終更新: 2026年6月30日