Beyond Output Faithfulness: Learning Attributions that Preserve Computational Pathways

Dec-5-2025–arXiv.org Artificial Intelligence

Faithfulness metrics such as insertion and deletion evaluate how feature removal affects model outputs but overlook whether explanations preserve the computational pathway the network actually uses. W e show that external metrics can be maximized through alternative pathways-- perturbations that reroute computation via different feature detectors while preserving output behavior . T o address this, we propose activation preservation as a tractable proxy for preserving computational pathways W e introduce Faithfulness-guided Ensemble Interpretation (FEI), which jointly optimizes external faithfulness (via ensemble quantile optimization of insertion/deletion curves) and internal faithfulness (via selective gradient clipping). Across VGG and ResNet on ImageNet and CUB-200-2011, FEI achieves state-of-the-art insertion/deletion scores while maintaining significantly lower activation deviation, showing that both external and internal faithfulness are essential for reliable explanations.

artificial intelligence, faithfulness, machine learning, (18 more...)

arXiv.org Artificial Intelligence

Dec-5-2025

arXiv.org PDF

Add feedback

Country:
- North America > United States
  - California (0.04)
  - Texas > Travis County
    - Austin (0.40)

Genre:
- Research Report (0.82)

Technology:
- Information Technology
  - Artificial Intelligence
    - Machine Learning > Neural Networks (1.00)
    - Representation & Reasoning (1.00)
  - Sensing and Signal Processing > Image Processing (0.68)

Duplicate Docs Excel Report

Title
None found

Similar Docs Excel Report more

Title	Similarity	Source
None found