Semantic-Aware Interpretable Multimodal Music Auto-Tagging