Fine-Grained Human Feedback Gives Better Rewards for Language Model Training

Oct-9-2025, 05:47:53 GMT–Neural Information Processing Systems

Additionally, we show that LM behaviors can be customized using different combinations of fine-grained reward models.

machine learning, natural language, reward model, (16 more...)

Neural Information Processing Systems

Oct-9-2025, 05:47:53 GMT

Conferences PDF

Country:
- Atlantic Ocean > Mediterranean Sea (0.04)
- South America > Suriname
  - Commewijne District > Nieuw Amsterdam (0.04)
- Oceania
  - Australia (0.04)
  - New Zealand (0.04)
- North America
  - Dominican Republic (0.04)
  - Belize (0.04)
  - United States
    - New York > Ontario County (0.04)
    - Massachusetts (0.04)
    - Missouri > St. Louis County
      - St. Louis (0.04)
    - Louisiana > Orleans Parish
      - New Orleans (0.04)
    - Florida > Hillsborough County
      - Tampa (0.04)
    - California
      - Los Angeles County > Los Angeles (0.05)
      - San Francisco County > San Francisco (0.04)
      - San Diego County > San Diego (0.04)
      - Alameda County > Berkeley (0.04)
    - Arizona > Maricopa County
      - Phoenix (0.04)
  - Canada
    - Ontario > Toronto (0.14)
    - Nova Scotia (0.04)
    - Quebec > Montreal (0.04)
    - Manitoba
      - Winnipeg Metropolitan Region > Winnipeg (0.04)
      - Central Plains Region > Portage la Prairie (0.04)
- Europe
  - France (0.15)
  - United Kingdom (0.14)
  - Russia (0.04)
  - Spain > Catalonia
    - Barcelona Province > Barcelona (0.04)
  - Netherlands > North Holland
    - Amsterdam (0.04)
  - Italy > Tuscany
    - Florence (0.04)
  - Ireland > Leinster
    - County Dublin > Dublin (0.04)
  - Croatia > Dubrovnik-Neretva County
    - Dubrovnik (0.04)
- Asia
  - Russia (0.04)
  - Middle East > UAE
    - Abu Dhabi Emirate > Abu Dhabi (0.04)

Genre:
- Research Report (0.46)

Industry:
- Consumer Products & Services > Travel (0.93)
- Education (0.93)
- Transportation
  - Passenger (1.00)
  - Marine (1.00)
- Leisure & Entertainment > Sports
  - Football (1.00)
- Government
  - Military (0.67)
  - Regional Government > North America Government
    - United States Government (1.00)

Technology:
- Information Technology > Artificial Intelligence
  - Representation & Reasoning (1.00)
  - Natural Language (1.00)
  - Machine Learning > Neural Networks
    - Deep Learning (0.71)

Duplicate Docs Excel Report

Title
b8c90b65739ae8417e61eadb521f63d5-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found