Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization

Aug-19-2025, 16:22:12 GMT–Neural Information Processing Systems

Self-supervised pre-training recently demonstrates success on large-scale multi-modal data, and state-of-the-art contrastive learning methods often enforce the feature consistency from cross-modality inputs, such as video/audio or video/text pairs.

artificial intelligence, arxiv preprint arxiv, machine learning, (13 more...)

Neural Information Processing Systems

Aug-19-2025, 16:22:12 GMT

Conferences PDF

Add feedback

Country:
- North America > United States > Texas
  - Brazos County > College Station (0.04)
  - Travis County > Austin (0.04)

Technology:
- Information Technology > Artificial Intelligence > Machine Learning > Neural Networks > Deep Learning (0.46)

Duplicate Docs Excel Report

Title
eacad5b8e67850f2b8dd33d87691d097-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found