AITopics | Reinforcement Learning

Collaborating Authors

Reinforcement Learning

"Reinforcement learning is learning what to do – how to map situations to actions – so as to maximize a numerical reward signal. The learner is not told which actions to take, as in most forms of machine learning, but instead must discover which actions yield the most reward by trying them."
– Sutton, Richard S. and Andrew G. Barto. Reinforcement Learning: An Introduction. (1.1). MIT Press, Cambridge, MA, 1998.

News Overviews Instructional Materials AI-Alerts Classics

Robust On-Policy Sampling for Data-Efficient Policy Evaluation in Reinforcement Learning

Neural Information Processing SystemsAug-19-2025, 19:18:12 GMT

On-policy algorithms learn about a particular target policy using data collected by behaving according to the target policy.

machine learning, reinforcement learning, trajectory, (13 more...)

Neural Information Processing Systems

Country:

North America > United States > Wisconsin > Dane County > Madison (0.04)
North America > United States > Maryland (0.04)
Asia > Middle East > Jordan (0.04)

Genre: Research Report > Experimental Study (0.46)

Technology:

Information Technology > Artificial Intelligence > Representation & Reasoning (1.00)
Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (1.00)

Add feedback

f115f619b62833aadc5acb058975b0e6-Supplemental-Conference.pdf

Neural Information Processing SystemsAug-19-2025, 18:52:02 GMT

eigenvalue, machine learning, reinforcement learning, (17 more...)

Neural Information Processing Systems

Country:

North America > United States > New Jersey > Mercer County > Princeton (0.04)
North America > Canada > Quebec > Montreal (0.04)
North America > Canada > British Columbia > Metro Vancouver Regional District > Vancouver (0.04)
(4 more...)

Genre: Research Report > New Finding (0.46)

Technology:

Information Technology > Artificial Intelligence > Representation & Reasoning (1.00)
Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (1.00)
Information Technology > Artificial Intelligence > Machine Learning > Neural Networks (0.68)

Add feedback

f115f619b62833aadc5acb058975b0e6-Paper-Conference.pdf

Neural Information Processing SystemsAug-19-2025, 18:51:58 GMT

eigenvalue, machine learning, reinforcement learning, (15 more...)

Neural Information Processing Systems

Country:

North America > United States > New Jersey > Mercer County > Princeton (0.04)
North America > Canada > Quebec > Montreal (0.04)
North America > Canada > British Columbia > Metro Vancouver Regional District > Vancouver (0.04)
(4 more...)

Genre: Research Report (0.46)

Technology:

Information Technology > Artificial Intelligence > Representation & Reasoning (1.00)
Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (1.00)
Information Technology > Artificial Intelligence > Machine Learning > Neural Networks (0.69)

Add feedback

efe36e55d80a94d1726f660b8d237a0f-Paper-Conference.pdf

Neural Information Processing SystemsAug-19-2025, 18:04:29 GMT

logic & formal reasoning, machine learning, reinforcement learning, (22 more...)

Neural Information Processing Systems

Country:

North America > United States > Massachusetts > Middlesex County > Cambridge (0.04)
North America > United States > New Jersey > Middlesex County > New Brunswick (0.04)
North America > United States > California > Alameda County > Berkeley (0.04)

Genre: Research Report (1.00)

Technology:

Information Technology > Artificial Intelligence > Robots (1.00)
Information Technology > Artificial Intelligence > Representation & Reasoning > Planning & Scheduling (1.00)
Information Technology > Sensing and Signal Processing > Image Processing (0.93)
(5 more...)

Add feedback

LAPO: Latent-Variable Advantage-Weighted Policy Optimization for Offline Reinforcement Learning Xi Chen

Neural Information Processing SystemsAug-19-2025, 17:57:02 GMT

In practice, offline datasets are often heterogeneous, i.e., collected in a variety of scenarios, such as data from several human demonstrators or from

artificial intelligence, machine learning, reinforcement learning, (14 more...)

Neural Information Processing Systems

Country:

North America > United States (0.04)
Asia > China > Guangdong Province > Shenzhen (0.04)

Genre: Research Report (0.69)

Technology: Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (1.00)

Add feedback

Explain My Surprise: Learning Efficient Long-Term Memory by Predicting Uncertain Outcomes

Neural Information Processing SystemsAug-19-2025, 17:52:42 GMT

In many sequential tasks, a model needs to remember relevant events from the distant past to make correct predictions.

information, machine learning, reinforcement learning, (17 more...)

Neural Information Processing Systems

Country:

Asia > Russia (0.14)
North America > United States > California > San Francisco County > San Francisco (0.14)
Europe > Russia > Central Federal District > Moscow Oblast > Moscow (0.04)
(7 more...)

Genre: Research Report > New Finding (0.68)

Technology:

Information Technology > Artificial Intelligence > Machine Learning > Neural Networks > Deep Learning (1.00)
Information Technology > Artificial Intelligence > Cognitive Science (1.00)
Information Technology > Artificial Intelligence > Natural Language (0.93)
(2 more...)

Add feedback

Learning Representations via a Robust Behavioral Metric for Deep Reinforcement Learning

Neural Information Processing SystemsAug-19-2025, 17:26:38 GMT

As behavioral metrics are expensive or even intractable to computers, approximation or relaxation are necessary.

artificial intelligence, machine learning, reinforcement learning, (14 more...)

Neural Information Processing Systems

Country:

Asia > Singapore (0.04)
North America > United States > Virginia > Arlington County > Arlington (0.04)

Technology: Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (1.00)

Add feedback

eda9523faa5e7191aee1c2eaff669716-Paper-Conference.pdf

Neural Information Processing SystemsAug-19-2025, 17:26:35 GMT

artificial intelligence, machine learning, reinforcement learning, (12 more...)

Neural Information Processing Systems

Country:

Asia > Singapore (0.04)
North America > United States > Virginia > Arlington County > Arlington (0.04)

Technology:

Information Technology > Artificial Intelligence > Robots (0.68)
Information Technology > Artificial Intelligence > Representation & Reasoning (0.67)
Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (0.49)

Add feedback

When to Trust Y our Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning

Neural Information Processing SystemsAug-19-2025, 17:14:27 GMT

H2O introduces a dynamics-aware policy evaluation scheme, which adaptively penalizes the Q-function learning on simulated state-action pairs with large dynamics gaps, while also simultaneously allowing learning from a fixed real-world dataset.

artificial intelligence, machine learning, reinforcement learning, (12 more...)

Neural Information Processing Systems

Country: