Direct Policy Gradients: Direct Optimization of Policies in Discrete Action Spaces

Aug-16-2025, 14:22:19 GMT–Neural Information Processing Systems

Many problems in machine learning reduce to learning a probability distribution (or policy) over sequences of discrete actions so as to maximize a downstream utility function. Examples include generating text sequences to maximize a task-specific metric like BLEU and generating action sequences in reinforcement learning (RL) to maximize expected return.

algorithm, gradient, trajectory, (15 more...)

Neural Information Processing Systems

Aug-16-2025, 14:22:19 GMT

Conferences PDF

Add feedback

Country:
- North America
  - United States > Maryland (0.04)
  - Canada (0.04)
- Europe > Spain
  - Canary Islands (0.04)
- Asia > Middle East
  - Israel (0.04)

Genre:
- Workflow (0.66)

Technology:
- Information Technology > Artificial Intelligence
  - Machine Learning (1.00)
  - Representation & Reasoning > Search (0.95)

Duplicate Docs Excel Report

Title
Direct Policy Gradients: Direct Optimizationof Policiesin Discrete Action Spaces

Similar Docs Excel Report more

Title	Similarity	Source
None found