Data-Efficient Reinforcement Learning in Continuous State-Action Gaussian-POMDPs

McAllister, Rowan, Rasmussen, Carl Edward

Dec-31-2017–Neural Information Processing Systems

We present a data-efficient reinforcement learning method for continuous state-action systems under significant observation noise. Data-efficient solutions under small noise exist, such as PILCO which learns the cartpole swing-up task in 30s. PILCO evaluates policies by planning state-trajectories using a dynamics model. However, PILCO applies policies to the observed state, therefore planning in observation space. We extend PILCO with filtering to instead plan in belief space, consistent with partially observable Markov decisions process (POMDP) planning. This enables data-efficient learning under significant observation noise, outperforming more naive methods such as post-hoc application of a filter to policies optimised by the original (unfiltered) PILCO algorithm. We test our method on the cartpole swing-up task, which involves nonlinear dynamics and requires nonlinear control.

artificial intelligence, machine learning, reinforcement learning, (17 more...)

Neural Information Processing Systems

Dec-31-2017

Conferences PDF

Add feedback

Country:
- North America > United States > Massachusetts (0.28)

Technology:
- Information Technology > Artificial Intelligence > Machine Learning
  - Reinforcement Learning (1.00)
  - Learning Graphical Models > Undirected Networks
    - Markov Models (1.00)

Duplicate Docs Excel Report

Title
5eac43aceba42c8757b54003a58277b5-Paper.pdf
5eac43aceba42c8757b54003a58277b5-Paper.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found