Provably Mitigating Overoptimization in RLHF: Y our SFT Loss is Implicitly an Adversarial Regularizer

Oct-10-2025, 22:05:18 GMT–Neural Information Processing Systems

Then it fine-tunes the LLM to maximize the learned reward using RL techniques.

arxiv preprint arxiv, objective, overoptimization, (15 more...)

Neural Information Processing Systems

Oct-10-2025, 22:05:18 GMT

Conferences PDF

Country:
- North America > United States
  - California > Santa Clara County > Palo Alto (0.04)
- Asia
  - Middle East > Jordan (0.04)
  - Myanmar > Tanintharyi Region
    - Dawei (0.04)

Genre:
- Research Report
  - New Finding (1.00)
  - Experimental Study (1.00)

Technology:
- Information Technology > Artificial Intelligence
  - Representation & Reasoning (1.00)
  - Natural Language > Large Language Model (1.00)
  - Machine Learning
    - Learning Graphical Models (0.93)
    - Neural Networks > Deep Learning (0.85)

Duplicate Docs Excel Report

Title
Provably Mitigating Overoptimization in RLHF: Y our SFT Loss is Implicitly an Adversarial Regularizer

Similar Docs Excel Report more

Title	Similarity	Source
None found