BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

Dec-25-2025, 03:31:54 GMT–Neural Information Processing Systems

In this paper, we introduce the BeaverTails dataset, aimed at fostering research on safety alignment in large language models (LLMs).

beavertail, improved safety alignment, name change, (4 more...)

Neural Information Processing Systems

Dec-25-2025, 03:31:54 GMT

Conferences Web Page

Technology:
- Information Technology > Artificial Intelligence > Natural Language > Large Language Model (0.72)