When to Trust Y our Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning

Aug-19-2025, 17:14:27 GMT–Neural Information Processing Systems

H2O introduces a dynamics-aware policy evaluation scheme, which adaptively penalizes the Q-function learning on simulated state-action pairs with large dynamics gaps, while also simultaneously allowing learning from a fixed real-world dataset.

artificial intelligence, machine learning, reinforcement learning, (12 more...)

Neural Information Processing Systems

Aug-19-2025, 17:14:27 GMT

Conferences PDF

Add feedback

Country:
- North America > United States (0.05)
- Asia
  - India (0.04)
  - China
    - Shanghai > Shanghai (0.04)
    - Beijing > Beijing (0.04)

Genre:
- Research Report (0.46)
- Instructional Material > Online (0.41)

Technology:
- Information Technology > Artificial Intelligence
  - Robots (1.00)
  - Machine Learning > Reinforcement Learning (1.00)
  - Representation & Reasoning (0.93)

Duplicate Docs Excel Report

Title
ed3cd2520148b577039adfade82a5566-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found