On Reinforcement Learningand Distribution Matchingfor Fine-Tuning Language Models withno Catastrophic Forgetting

Feb-9-2026, 12:55:47 GMT–Neural Information Processing Systems

Twoofthemcanbecharacterizedas "Reward Maximization" (RM): Standard Policy Gradients (PG) and KL-control.

machine learning, natural language, urlhttp, (11 more...)

Neural Information Processing Systems

Feb-9-2026, 12:55:47 GMT

Conferences PDF

Country:
- Oceania > Australia
  - New South Wales > Sydney (0.04)
- North America
  - Dominican Republic (0.04)
  - United States
    - Texas > Travis County
      - Austin (0.05)
    - New York > New York County
      - New York City (0.04)
    - Minnesota > Hennepin County
      - Minneapolis (0.14)
    - Michigan > Washtenaw County
      - Ann Arbor (0.04)
    - Massachusetts
      - Suffolk County > Boston (0.04)
      - Middlesex County > Cambridge (0.04)
    - California
      - San Francisco County > San Francisco (0.14)
      - Santa Clara County > Palo Alto (0.04)
      - San Mateo County > San Mateo (0.04)
      - San Diego County > San Diego (0.04)
  - Puerto Rico > San Juan
    - San Juan (0.04)
  - Canada > British Columbia
    - Metro Vancouver Regional District > Vancouver (0.04)
- Europe
  - Italy > Sardinia (0.04)
  - France (0.04)
  - Denmark > Capital Region
    - Copenhagen (0.04)
- Asia
  - China > Hong Kong (0.04)
  - Macao (0.04)
- Africa > Ethiopia
  - Addis Ababa > Addis Ababa (0.05)

Genre:
- Research Report (0.31)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language (1.00)
  - Machine Learning > Neural Networks (0.68)

Duplicate Docs Excel Report

Title
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting

Similar Docs Excel Report more

Title	Similarity	Source
None found