Reward is Enough for Convex MDPs

Aug-17-2025, 17:46:48 GMT–Neural Information Processing Systems

Maximising a cumulative reward function that is Markov and stationary, i.e., defined over state-action pairs and independent of time, is sufficient to capture many

artificial intelligence, machine learning, reinforcement learning, (15 more...)

Neural Information Processing Systems

Aug-17-2025, 17:46:48 GMT

Conferences PDF

Country:
- Europe
  - Russia (0.04)
  - United Kingdom > England
    - Cambridgeshire > Cambridge (0.04)
- Asia
  - Russia (0.04)
  - Middle East > Jordan (0.04)

Technology:
- Information Technology > Artificial Intelligence
  - Representation & Reasoning > Optimization (0.68)
  - Machine Learning
    - Reinforcement Learning (1.00)
    - Learning Graphical Models > Undirected Networks
      - Markov Models (0.46)