Convergent Policy Optimization for Safe Reinforcement Learning

Ming Yu, Zhuoran Yang, Mladen Kolar, Zhaoran Wang

Feb-14-2026, 13:53:57 GMT–Neural Information Processing Systems

Given ,J ( )andD ( )arethesample (i.e., atrajectory) . Note J ( ) and D ( ) are randomness J ( )andD ( )todenote anda ClearlyweJ( )= E J ( ) andD( )= E D ( ) .

artificial intelligence, machine learning, reinforcement learning, (13 more...)

Neural Information Processing Systems

Feb-14-2026, 13:53:57 GMT

Conferences PDF

Country:
- South America > Chile
  - Santiago Metropolitan Region > Santiago Province > Santiago (0.04)
- North America
  - United States
    - Pennsylvania (0.04)
    - New York (0.04)
    - California (0.04)
    - New Jersey > Mercer County
      - Princeton (0.04)
    - Illinois > Cook County
      - Chicago (0.05)
      - Evanston (0.04)
  - Canada > British Columbia
    - Metro Vancouver Regional District > Vancouver (0.04)

Technology:
- Information Technology > Artificial Intelligence > Machine Learning > Reinforcement Learning (0.51)

Duplicate Docs Excel Report

Title
Convergent Policy Optimization for Safe Reinforcement Learning

Similar Docs Excel Report more

Title	Similarity	Source
None found