Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls

Lin, Liwei, Xia, Gus, Zhang, Yixiao, Jiang, Junyan

Feb-14-2024–arXiv.org Artificial Intelligence

Controllable music generation plays a vital role in human-AI music co-creation. While Large Language Models (LLMs) have shown promise in generating high-quality music, their focus on autoregressive generation limits their utility in music editing tasks. To bridge this gap, we introduce a novel Parameter-Efficient Fine-Tuning (PEFT) method. This approach enables autoregressive language models to seamlessly address music inpainting tasks. Additionally, our PEFT method integrates frame-level content-based controls, facilitating track-conditioned music refinement and score-conditioned music arrangement. We apply this method to fine-tune MusicGen, a leading autoregressive music generation model. Our experiments demonstrate promising results across multiple music editing tasks, offering more flexible controls for future AI-driven music editing tools. A demo page\footnote{\url{https://kikyo-16.github.io/AIR/}.} showcasing our work and source codes\footnote{\url{https://github.com/Kikyo-16/airgen}.} are available online.

adapter, musicgen, piano cover, (13 more...)

arXiv.org Artificial Intelligence

Feb-14-2024

arXiv.org PDF

Add feedback

Country:
- North America > United States
  - New York (0.04)
- Asia > China
  - Shanghai > Shanghai (0.04)

Genre:
- Research Report (0.82)

Industry:
- Media > Music (1.00)
- Leisure & Entertainment (1.00)

Technology:
- Information Technology > Artificial Intelligence > Natural Language > Large Language Model (0.54)