Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

Apr-30-2026, 09:16:09 GMT–Neural Information Processing Systems

IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model & task scaling. We conduct extensive empirical studies and reveal the following key insights: 1) performing gradient descent updates by alternating on diverse modalities, loss functions, and tasks, with varying input resolutions, efficiently improves the model.

artificial intelligence, machine learning, objective, (15 more...)

Neural Information Processing Systems

Apr-30-2026, 09:16:09 GMT

Conferences PDF

Add feedback

Genre:
- Research Report (0.46)

Industry:
- Health & Medicine > Therapeutic Area > Neurology (0.46)

Technology:
- Information Technology > Artificial Intelligence > Machine Learning
  - Statistical Learning > Gradient Descent (0.81)
  - Neural Networks (0.68)

Duplicate Docs Excel Report

Title
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

Similar Docs Excel Report more

Title	Similarity	Source
None found