Glance and Focus: Memory Prompting for Multi-Event Video Question Answering Ziyi Bai

Feb-13-2026, 14:35:42 GMT–Neural Information Processing Systems

Video Question Answering (VideoQA) has emerged as a vital tool to evaluate agents' ability to understand human daily behaviors. Despite the recent success of large vision language models in many multi-modal tasks, complex situation reasoning over videos involving multiple human-object interaction events still remains challenging.

computer vision, machine learning, question answering, (14 more...)

Neural Information Processing Systems

Feb-13-2026, 14:35:42 GMT

Conferences PDF

Add feedback

Country:
- Asia > China > Beijing > Beijing (0.04)

Industry:
- Education (0.68)

Technology:
- Information Technology > Artificial Intelligence
  - Vision (1.00)
  - Natural Language > Question Answering (0.63)
  - Machine Learning > Neural Networks (0.46)

Duplicate Docs Excel Report

Title
6baec7c4ba0a8734ccbd528a8090cb1f-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found