POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

Aug-17-2025, 06:17:27 GMT–Neural Information Processing Systems

Empirically, the low-variance baseline of POMO makes RL training fast and stable, and it is more resistant to local minima compared to previous approaches.

optimal solution, pomo, trajectory, (15 more...)

Neural Information Processing Systems

Aug-17-2025, 06:17:27 GMT

Conferences PDF

Country:
- North America > Canada (0.04)

Industry:
- Transportation (0.31)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language (1.00)
  - Representation & Reasoning
    - Optimization (1.00)
    - Search (0.69)
  - Machine Learning
    - Reinforcement Learning (1.00)
    - Neural Networks > Deep Learning (0.94)

Duplicate Docs Excel Report

Title
POMO: PolicyOptimizationwithMultipleOptima forReinforcementLearning

Similar Docs Excel Report more

Title	Similarity	Source
None found