Efficient Exploration and Value Function Generalization in Deterministic Systems Zheng Wen

Mar-13-2024, 20:00:22 GMT–Neural Information Processing Systems

We consider the problem of reinforcement learning over episodes of a finitehorizon deterministic system and as a solution propose optimistic constraint propagation (OCP), an algorithm designed to synthesize efficient exploration and value function generalization.

algorithm, constraint, reinforcement, (13 more...)

Neural Information Processing Systems

Mar-13-2024, 20:00:22 GMT

Conferences PDF

Add feedback

Country:
- North America > United States
  - California > Santa Clara County > Palo Alto (0.04)
- Asia > Middle East
  - Jordan (0.04)

Technology:
- Information Technology > Artificial Intelligence
  - Machine Learning > Reinforcement Learning (0.74)
  - Representation & Reasoning > Optimization (0.46)