Supported Value Regularization for Offline Reinforcement Learning

Offline reinforcement learning suffers from the extrapolation error and value overestimation caused by out-of-distribution (OOD) actions.

Oct-8-2025, 23:41:44 GMT

Title
7fa46657df480226112d5be3faf096c4-Supplemental-Conference.pdf
7fa46657df480226112d5be3faf096c4-Paper-Conference.pdf
Supported Value Regularization for Offline Reinforcement Learning

Title	Similarity	Source
None found