Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage

Feb-17-2026, 07:16:53 GMT–Neural Information Processing Systems

Typically, deep RL algorithms learn a policy in an online trial-and-error fashion using millions to billions of data.

artificial intelligence, machine learning, reinforcement learning, (12 more...)

Neural Information Processing Systems

Feb-17-2026, 07:16:53 GMT

Conferences PDF

Country:
- North America > United States
  - Washington > King County
    - Seattle (0.04)
  - Massachusetts > Middlesex County
    - Cambridge (0.04)
  - California
    - Santa Clara County > Palo Alto (0.04)
    - San Mateo County > Menlo Park (0.04)
- Europe > United Kingdom
  - England > Cambridgeshire > Cambridge (0.04)
- Asia
  - Middle East > Jordan (0.04)
  - China > Hong Kong (0.04)

Technology:
- Information Technology > Artificial Intelligence > Machine Learning
  - Reinforcement Learning (1.00)
  - Learning Graphical Models > Undirected Networks
    - Markov Models (0.47)

Duplicate Docs Excel Report

Title
Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage

Similar Docs Excel Report more

Title	Similarity	Source
None found