Multimodal Learning and Reasoning for Visual Question Answering

Ilija Ilievski, Jiashi Feng

Nov-21-2025, 13:52:53 GMT–Neural Information Processing Systems

Typically, a VQA model is comprised of two modules for learning the question and the image representations, and a third module for fusing the representations into a single multimodal representation.

artificial intelligence, machine learning, natural language, (20 more...)

Neural Information Processing Systems

Nov-21-2025, 13:52:53 GMT

Conferences PDF

Country:
- North America > United States
  - California > Los Angeles County > Long Beach (0.04)
- Asia
  - Singapore (0.05)
  - Afghanistan > Parwan Province
    - Charikar (0.04)

Technology:
- Information Technology > Artificial Intelligence
  - Vision (1.00)
  - Natural Language (1.00)
  - Cognitive Science (1.00)
  - Machine Learning > Neural Networks
    - Deep Learning (0.97)

Duplicate Docs Excel Report

Title
Multimodal Learning and Reasoning for Visual Question Answering
Multimodal Learning and Reasoning for Visual Question Answering

Similar Docs Excel Report more

Title	Similarity	Source
None found