Few-shot Task-agnostic Neural Architecture Search for Distilling Large Language Models

Aug-18-2025, 04:10:25 GMT–Neural Information Processing Systems

Traditional knowledge distillation (KD) methods manually design student architectures to compress large models given pre-specified computational cost.

machine learning, natural language, subnetwork, (18 more...)

Neural Information Processing Systems

Aug-18-2025, 04:10:25 GMT

Conferences PDF

Add feedback

Country:
- Asia > Singapore (0.04)
- Oceania > Australia
  - Victoria > Melbourne (0.04)
- North America > United States
  - Washington > King County
    - Seattle (0.04)
  - Minnesota > Hennepin County
    - Minneapolis (0.14)
  - Louisiana > Orleans Parish
    - New Orleans (0.04)
  - California > San Diego County
    - San Diego (0.04)
- Europe
  - Italy > Tuscany
    - Florence (0.04)
  - Belgium > Brussels-Capital Region
    - Brussels (0.04)

Technology:
- Information Technology > Artificial Intelligence
  - Natural Language (1.00)
  - Machine Learning > Neural Networks (1.00)

Duplicate Docs Excel Report

Title
b7c12689a89e98a61bcaa65285a41b7c-Paper-Conference.pdf

Similar Docs Excel Report more

Title	Similarity	Source
None found