Skip to main content

간단히 소개하는 Dance Diffusion

확산 모델은 이미지에는 폭넓게 사용되고 있지만, 오디오 생성 부문에서는 아직 진정한 관심을 얻지 못했습니다. 그런 추세가 Harmonai 덕분에 변하고 있습니다.
Created on January 3|Last edited on January 6
이는 여기에서 볼 수 있는 영어 기사를 번역한 것이다.



Dance Diffusion이란 무엇일까요?

Dance Diffusion은 오디오 생성 머신 러닝 모델 제품군으로, Stability AI의 한 부분이자, 프로듀서와 음악가를 위한 오픈 소스 생성 오디오 도구 개발에 사명을 가진 커뮤니티 중심의 조직인 Harmonai가 만들었습니다.
Stability AI는 인기 있는 텍스트 투 이미지(text-to-image) 생성기인 Stable Diffusion을 개발한 AI 스타트업이죠.
사전 학습된 Dance Diffusion 모델을 사용하면 (또는 사용자 고유의 Dance Diffusion 모델 학습을 통해) 특정 스타일의 오디오 샘플을 임의로 생성하거나, 주어진 오디오 샘플을 재생성하거나, 또는 두 개의 서로 다른 오디오 샘플을 보완할 수 있습니다.
Dance Diffusion 모델은 이름에서 알 수 있듯이 디퓨전, 확산 모델입니다.

그렇다면, 확산 모델이란 무엇일까요?

확산 모델은 학습된 데이터를 "파괴" ("정방향 확산" 또는 "노이즈 추가"라고 함) 및 "복원" ("역방향 확산" 또는 "노이즈 제거"라고 함) 방법을 학습하여 새로운 데이터를 생성하는 머신 러닝 모델의 일종입니다.
학습 과정을 통해, 모델은 이전에 파괴한 데이터를 충실하게 복원하는 데 점점 더 능숙해지죠.
NVIDIA가 작성한 기술 블로그 게시물을 보시면 정방향 및 역방향 프로세스를 알 수 있습니다. 디퓨전 모델은 데이터가 순수한 노이즈가 될 때까지 일부 데이터(예를 들어, 고양이 이미지)에 반복적으로 노이즈를 추가한 다음, 이미지가 원래 형태로 복원될 때까지 반복적으로 노이즈를 제거합니다.

그렇다면 모델에 랜덤 노이즈를 복원하도록 요청하면 어떻게 될까요?
밝혀진 바와 같이 학습된 확산 모델에 랜덤 노이즈를 전달하면, 역확산 프로세스는 입력된 노이즈를 제거하여 재생성하도록 학습한 데이터와 동일한 유형의 무언가로 바꾸어 냅니다. 다시 말해, 바로 이런 방법으로 확산 모델이 새로운 데이터를 생성하는 것이죠!
Dance Diffusion 모델은 오디오에 대한 학습을 받았기 때문에 오디오를 생성하는 법을 학습합니다.
자, 온전히 Dance Diffusion 모델만으로 생성된 피아노 음악 샘플 몇 가지를 들어 보시죠

audio
steps
model
sample_rate
sample_size
1
2
3
4

Dance Diffusion은 무엇을 학습할까요?

현재 일반에 공개된 Dance Diffusion 모델은 6개가 있으며, 각각 다른 오디오 파일 데이터세트를 학습하고 있습니다:
  • glitch-440k: glitch.cool에서 제공하는 클립을 학습
  • jmann-small-190k: Jonathan Mann의 "Song A Day" 프로젝트 클립의 소규모 서브세트를 학습
  • jmam-large-580k: Jonathan Mann의 "Song A Day" 프로젝트 클립의 대규모 서브세트를 학습
  • maestro-150k: MAESTRO 데이터세트의 피아노 클립 서브세트를 학습
  • unlocked-250k: Unlocked Recordings의 데이터세트 클립을 학습
  • honk-140k: xeno-canto를 통해 캐나다 기러기 소리 녹음을 학습
확산 모델이 학습한 데이터, 곧, 복원 방법을 학습한 데이터는 나중에 생성되는 데이터 유형에 영향을 미치기 때문에, 예를 들어 maestro-150k 모델로 생성된 오디오 샘플은 항상 기타나 트럼펫 음악이 아닌 피아노 음악처럼 들릴 것입니다.
Zach EvansGoogle Colab 노트북을 발표해 위에 나열된 Dance Diffusion 모델의 오픈 베타 버전에 엑세스할 수 있도록 했습니다. Evans는 여러분이 가진 데이터세트에서 Dance Diffusion 모델을 미세 조정하거나 사용자 지정하여, 생성된 오디오 클립을 더 잘 제어할 수 있도록 하는 Colab 노트북도 작성했습니다.
Dance Diffusion 모델을 직접 사용하거나 미세 조정을 수행해 보고 싶으신 분은 Reddit 사용자 u/Stapler_Enthusiast의 자세한 Dance Diffusion 튜토리얼을 확인하세요.
마지막으로, Harmonai의 모델 중 하나를 사용하여 자신만의 음악 샘플을 만들고 싶으신 분은 아래의 Colab 링크를 확인하세요!


Iterate on AI agents and models faster. Try Weights & Biases today.
Maybe<File<(table)>>