Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing Shentong Mo Carnegie Mellon University Y apeng Tian University of Texas at Dallas

Aug-19-2025, 12:49:07 GMT–Neural Information Processing Systems

The audio-visual video parsing task aims to parse a video into modality-and category-aware temporal segments. Previous work mainly focuses on weakly-supervised approaches, which learn from video-level event labels.

artificial intelligence, machine learning, natural language, (15 more...)

Neural Information Processing Systems

Aug-19-2025, 12:49:07 GMT

Conferences PDF

Add feedback

Country:
- North America > United States > Texas (0.40)

Technology:
- Information Technology > Artificial Intelligence
  - Vision (1.00)
  - Machine Learning (1.00)
  - Natural Language > Grammars & Parsing (0.64)

Duplicate Docs Excel Report

Title
e095c0a3717629aa5497601985bfcf0e-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found