Rate-Optimal Policy Optimization for Linear Markov Decision Processes

Sherman, Uri, Cohen, Alon, Koren, Tomer, Mansour, Yishay

Feb-15-2024–arXiv.org Artificial Intelligence

Policy Optimization (PO) algorithms are a class of methods in Reinforcement Learning(RL; Sutton and Barto, 2018; Mannor et al., 2022) where the agent's policy is iteratively updated according to the (possibly preconditioned) gradient of the value function w.r.t.

algorithm 1, assumption, international conference, (13 more...)

arXiv.org Artificial Intelligence

Feb-15-2024

arXiv.org PDF

Add feedback

Country:
- Europe > United Kingdom
  - England > Cambridgeshire > Cambridge (0.04)
- Asia > Middle East
  - Jordan (0.04)
  - Israel > Tel Aviv District
    - Tel Aviv (0.04)

Genre:
- Research Report (0.50)

Technology:
- Information Technology > Artificial Intelligence
  - Representation & Reasoning > Optimization (0.67)
  - Machine Learning
    - Reinforcement Learning (0.68)
    - Learning Graphical Models > Undirected Networks
      - Markov Models (0.50)