Long-form factuality in large language models Jerry Wei 1 Chengrun Y ang 1 Xinying Song 1 Yifeng Lu

Nov-19-2025, 21:47:41 GMT–Neural Information Processing Systems

To benchmark a model's long-form factuality in open domains, we first use GPT -4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE).

large language model, machine learning, natural language, (20 more...)

Neural Information Processing Systems

Nov-19-2025, 21:47:41 GMT

Conferences PDF

Add feedback

Country:
- Atlantic Ocean > Gulf of Mexico (0.04)
- South America
  - Brazil (0.04)
  - Peru > Loreto Department
    - Maynas Province > Iquitos (0.04)
  - Colombia > Santander Department
    - Bucaramanga (0.04)
- Oceania > Australia
  - South Australia > Adelaide (0.14)
  - Victoria > Melbourne (0.04)
  - New South Wales > Sydney (0.04)
- North America
  - Mexico (0.14)
  - Panama (0.04)
  - Greenland (0.04)
  - United States
    - Virginia (0.04)
    - Texas (0.04)
    - Michigan (0.04)
    - Minnesota (0.04)
    - Missouri (0.04)
    - Illinois (0.04)
    - Oklahoma > Oklahoma County
      - Oklahoma City (0.04)
    - Connecticut > Fairfield County
      - Danbury (0.04)
    - California
      - Los Angeles County > Los Angeles (0.28)
      - San Francisco County > San Francisco (0.04)
      - San Diego County > San Diego (0.04)
      - Orange County > Irvine (0.04)
    - Wisconsin > Milwaukee County
      - Milwaukee (0.04)
  - Dominican Republic > San Cristóbal
    - San Cristóbal (0.04)
  - Cuba > Guantánamo Province
    - Guantánamo (0.04)
  - Canada > Quebec
    - Montreal (0.04)
- Europe
  - Germany > Berlin (0.04)
  - United Kingdom > Northern Ireland (0.04)
  - Poland (0.04)
  - Greece (0.04)
  - Portugal > Lisbon
    - Lisbon (0.04)
- Asia
  - Malaysia (0.14)
  - Russia (0.14)
  - Macao (0.04)
  - Thailand (0.04)
  - East Asia (0.04)
  - India
    - Maharashtra (0.04)
    - Gujarat (0.04)
  - China
    - Shanghai > Shanghai (0.04)
    - Tibet Autonomous Region (0.04)
    - Hong Kong (0.04)
  - Middle East
    - Iran (0.14)
    - Israel > Jerusalem District
      - Jerusalem (0.04)
  - Japan > Honshū
    - Kantō
      - Tokyo Metropolis Prefecture > Tokyo (0.14)
      - Kanagawa Prefecture (0.14)
    - Kansai > Kyoto Prefecture
      - Kyoto (0.04)
- Africa
  - Nigeria (0.04)
  - Sudan
    - Khartoum State > Khartoum (0.04)
    - Khartoum (0.04)
  - South Africa > Gauteng
    - Soweto (0.04)
  - Middle East > Egypt
    - Giza Governorate > Giza (0.04)

Genre:
- Research Report > Experimental Study (1.00)
- Personal > Honors (0.67)

Industry:
- Banking & Finance > Economy (1.00)
- Law Enforcement & Public Safety > Crime Prevention & Enforcement (0.92)
- Marketing (0.67)
- Education > Educational Setting (0.67)
- Leisure & Entertainment
  - Games (0.67)
  - Sports
    - Baseball (1.00)
    - Golf (0.92)
- Information Technology
  - Security & Privacy (1.00)
  - Services (0.69)
- Law
  - Civil Rights & Constitutional Law (1.00)
  - Statutes (0.67)
  - International Law (0.67)
  - Environmental Law (0.67)
  - Criminal Law (0.67)
- Health & Medicine
  - Pharmaceuticals & Biotechnology (1.00)
  - Health Care Providers & Services (0.67)
  - Therapeutic Area
    - Infections and Infectious Diseases (1.00)
    - Immunology (1.00)
- Government
  - Military (1.00)
  - Immigration & Customs (0.93)
  - Foreign Policy (0.67)
  - Regional Government
    - North America Government > United States Government (1.00)
    - Europe Government (0.67)
- Media
  - Television (1.00)
  - Music (1.00)
  - Film (1.00)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language
    - Large Language Model (1.00)
    - Chatbot (1.00)
  - Machine Learning > Neural Networks
    - Deep Learning (1.00)

Duplicate Docs Excel Report

Title
937ae0e83eb08d2cb8627fe1def8c751-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found