MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention Huiqiang Jiang, Yucheng Li

Feb-14-2026, 19:37:17 GMT–Neural Information Processing Systems

Existing methods for speeding up pre-filling often fail to maintain acceptable accuracy or efficiency when applied to long-context LLMs.

large language model, machine learning, natural language, (17 more...)

Neural Information Processing Systems

Feb-14-2026, 19:37:17 GMT

Conferences PDF

Country:
- South America > Chile
  - Santiago Metropolitan Region > Santiago Province > Santiago (0.04)
- North America
  - Dominican Republic (0.04)
  - United States > Florida
    - Miami-Dade County > Miami (0.04)
  - Mexico > Mexico City
    - Mexico City (0.04)
- Europe > United Kingdom
  - Scotland (0.04)
- Asia
  - Singapore (0.04)
  - Indonesia > Bali (0.04)
  - Thailand > Bangkok
    - Bangkok (0.04)
  - China > Guangxi Province
    - Nanning (0.04)
- Africa > Ethiopia
  - Addis Ababa > Addis Ababa (0.04)

Genre:
- Research Report > Experimental Study (0.93)

Industry:
- Education (0.46)
- Information Technology (0.46)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language > Large Language Model (1.00)
  - Machine Learning > Neural Networks
    - Deep Learning (1.00)

Duplicate Docs Excel Report

Title
5dfbe6f5671e82c76841ba687a8a9ecb-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found