MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering

Sep-12-2025–arXiv.org Artificial Intelligence

Continual Visual Question Answering (CVQA) based on pre-trained models (PTMs) has achieved promising progress by leveraging prompt tuning to enable continual multi-modal learning. However, most existing methods adopt cross-modal prompt isolation, constructing visual and textual prompts separately, which exacerbates modality imbalance and leads to degraded performance over time. To tackle this issue, we propose MM-Prompt, a novel framework incorporating cross-modal prompt query and cross-modal prompt recovery. The former enables balanced prompt selection by incorporating cross-modal signals during query formation, while the latter promotes joint prompt reconstruction through iterative cross-modal interactions, guided by an alignment loss to prevent representational drift. Extensive experiments show that MM-Prompt surpasses prior approaches in accuracy and knowledge retention, while maintaining balanced modality engagement throughout continual learning. Our code is available at https://github.com/xli04/CVQA.

machine learning, natural language, question answering, (17 more...)

arXiv.org Artificial Intelligence

Sep-12-2025

arXiv.org PDF

Add feedback

Genre:
- Research Report (0.82)

Industry:
- Transportation (0.68)
- Leisure & Entertainment > Sports (0.46)

Technology:
- Information Technology > Artificial Intelligence
  - Representation & Reasoning (1.00)
  - Machine Learning (1.00)
  - Natural Language > Question Answering (0.62)