HarmNet: A Framework for Adaptive Multi-Turn Jailbreak Attacks on Large Language Models

Narula, Sidhant, Asl, Javad Rafiei, Ghasemigol, Mohammad, Blanco, Eduardo, Takabi, Daniel

Oct-22-2025–arXiv.org Artificial Intelligence

Abstract--Large Language Models (LLMs) remain vulnerable to multi-turn jailbreak attacks. We introduce HarmNet, a modular framework comprising ThoughtNet, a hierarchical semantic network; a feedback-driven Simulator for iterative query refinement; and a Network Traverser for real-time adaptive attack execution. HarmNet systematically explores and refines the adversarial space to uncover stealthy, high-success attack paths. Experiments across closed-source and open-source LLMs demonstrate that HarmNet outperforms state-of-the-art methods, achieving significantly higher attack success rates. For example, on Mistral-7B, HarmNet achieves a 99.4% attack success rate--13.9%

large language model, machine learning, natural language, (15 more...)

arXiv.org Artificial Intelligence

Oct-22-2025

arXiv.org PDF

Add feedback

Country:
- North America > United States > Arizona > Pima County > Tucson (0.14)

Genre:
- Research Report (0.84)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language > Large Language Model (1.00)
  - Machine Learning > Neural Networks
    - Deep Learning (0.77)

Duplicate Docs Excel Report

Title
None found

Similar Docs Excel Report more

Title	Similarity	Source
None found