SafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Law

Lab, Shanghai AI, :, null, Bao, Yicheng, Chen, Guanxu, Chen, Mingkang, Chen, Yunhao, Chen, Chiyu, Chen, Lingjie, Chen, Sirui, Chen, Xinquan, Cheng, Jie, Cheng, Yu, Deng, Dengke, Ding, Yizhuo, Ding, Dan, Ding, Xiaoshan, Ding, Yi, Dong, Zhichen, Du, Lingxiao, Fan, Yuyu, Feng, Xinshun, Fu, Yanwei, Gao, Yuxuan, Ge, Ruijun, Gu, Tianle, Gui, Lujun, Guo, Jiaxuan, He, Qianxi, Hou, Yuenan, Hu, Xuhao, Huang, Hong, Huang, Kaichen, Huang, Shiyang, Jiang, Yuxian, Lei, Shanzhe, Li, Jie, Li, Lijun, Li, Hao, Li, Juncheng, Li, Xiangtian, Li, Yafu, Li, Lingyu, Li, Xueyan, Liang, Haotian, Liu, Dongrui, Liu, Qihua, Liu, Zhixuan, Liu, Bangwei, Liu, Huacan, Liu, Yuexiao, Liu, Zongkai, Lu, Chaochao, Lu, Yudong, Lu, Xiaoya, Lu, Zhenghao, Lv, Qitan, Ma, Caoyuan, Ma, Jiachen, Ma, Xiaoya, Ma, Zhongtian, Meng, Lingyu, Miao, Ziqi, Niu, Yazhe, Peng, Yuezhang, Pu, Yuan, Qi, Han, Qian, Chen, Qiao, Xingge, Qu, Jingjing, Qu, Jiashu, Qu, Wanying, Qu, Wenwen, Qu, Xiaoye, Ren, Qihan, Ren, Qingnan, Ren, Qingyu, Shao, Jing, Shao, Wenqi, Shao, Shuai, Shi, Dongxing, Song, Xin, Song, Xinhao, Teng, Yan, Tong, Xuan, Wang, Yingchun, Wang, Xuhong, Wang, Shujie, Wang, Xin, Wang, Yige, Wang, Yixu, Wang, Yuanfu, Wang, Futing, Wang, Ruofan, Wang, Wenjie, Wang, Yajie, Wei, Muhao, Wen, Xiaoyu, Weng, Fenghua, Wu, Yuqi, Xiong, Yingtong, Xu, Xingcheng, Yang, Chao, Yang, Yue, Yao, Yang, Ye, Yulei, Yin, Zhenyun, Yu, Yi, Zhang, Bo, Zhang, Qiaosheng, Zhang, Jinxuan, Zhang, Yexin, Zheng, Yinqiang, Zhou, Hefeng, Zhou, Zhanhui, Zhu, Pengyu, Zhu, Qingzi, Zhu, Yubo, Zhou, Bowen

Aug-8-2025–arXiv.org Artificial Intelligence

We introduce SafeWork-R1, a cutting-edge multimodal reasoning model that demonstrates the coevolution of capabilities and safety. It is developed by our proposed SafeLadder framework, which incorporates large-scale, progressive, safety-oriented reinforcement learning post-training, supported by a suite of multi-principled verifiers. Unlike previous alignment methods such as RLHF that simply learn human preferences, SafeLadder enables SafeWork-R1 to develop intrinsic safety reasoning and self-reflection abilities, giving rise to safety `aha' moments. Notably, SafeWork-R1 achieves an average improvement of $46.54\%$ over its base model Qwen2.5-VL-72B on safety-related benchmarks without compromising general capabilities, and delivers state-of-the-art safety performance compared to leading proprietary models such as GPT-4.1 and Claude Opus 4. To further bolster its reliability, we implement two distinct inference-time intervention methods and a deliberative search mechanism, enforcing step-level verification. Finally, we further develop SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B, and SafeWork-R1-Qwen2.5VL-7B. All resulting models demonstrate that safety and capability can co-evolve synergistically, highlighting the generalizability of our framework in building robust, reliable, and trustworthy general-purpose AI.

large language model, machine learning, natural language, (15 more...)

arXiv.org Artificial Intelligence

Aug-8-2025

arXiv.org PDF

Add feedback

Country:
- Asia (0.46)
- North America > United States (0.28)

Genre:
- Workflow (0.93)
- Research Report > New Finding (0.46)

Industry:
- Education > Educational Setting (0.48)
- Law (0.46)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language
    - Large Language Model (1.00)
    - Chatbot (1.00)
  - Machine Learning > Neural Networks
    - Deep Learning (1.00)

Duplicate Docs Excel Report

Title
None found

Similar Docs Excel Report more

Title	Similarity	Source
None found