2025-07-29

Flow Policy Optimization (FPO)は、フロー生成モデルを用いた強化学習アルゴリズムで、PPO-clipと互換性を持ちつつ、拡散モデルの制約を回避し、多様な制御タスクで高性能を発揮します