Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation

Jun-23-2026, 03:22:11 GMT–Neural Information Processing Systems

Diffusion Transformers (DiTs) achieve state-of-the-art results in text-to-image, text-to-video generation, and editing. However, their large model size and the quadratic cost of spatial-temporal attention over multiple denoising steps make video generation computationally expensive. Static caching mitigates this by reusing features across fixed steps but fails to adapt to generation dynamics, leading to suboptimal trade-offs between speed and quality. We propose Foresight, an adaptive layer-reuse technique that reduces computational redundancy across denoising steps while preserving baseline performance. Foresight dynamically identifies and reuses DiT block outputs for all layers across steps, adapting to generation parameters such as resolution and denoising schedules to optimize efficiency. Applied to OpenSora, Latte, and CogVideoX, Foresight achieves up to 1.63 end-to-end speedup, while maintaining video quality.

artificial intelligence, machine learning, natural language, (17 more...)

Neural Information Processing Systems

Jun-23-2026, 03:22:11 GMT

Conferences PDF

Add feedback

Country:
- North America > Canada (0.28)

Genre:
- Research Report > Experimental Study (1.00)

Industry:
- Information Technology (0.46)
- Media (0.46)

Technology:
- Information Technology > Artificial Intelligence
  - Vision (1.00)
  - Natural Language (1.00)
  - Representation & Reasoning (0.66)
  - Machine Learning > Neural Networks
    - Deep Learning (0.67)

Duplicate Docs Excel Report

Title
None found

Similar Docs Excel Report more

Title	Similarity	Source
None found