Review for NeurIPS paper: POMO: Policy Optimization with Multiple Optima for Reinforcement Learning

Feb-8-2025, 03:23:07 GMT–Neural Information Processing Systems

Correctness: The discussion on baseline's for POMO to me are a bit misleading. This is somewhat of a nit though. First, the use of "traditionally" is incorrect. Earliest work (including the REINFORCE paper if I recall correctly) make use of a rolling average baseline. Newer works do use more complicated baselines, but for a reason!

baseline, policy optimization, reinforcement learning, (4 more...)

Neural Information Processing Systems

Feb-8-2025, 03:23:07 GMT

Conferences Web Page

Add feedback

Technology:
- Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (0.40)