Skip to main content

Harmonai의 새로운 오디오 확산 모델: Stable Audio

오디오를 생성하는 새로운 모델! 이 기사는 AI 번역본입니다. 오역이 의심되면 댓글로 알려 주세요.
Created on September 12|Last edited on September 12
Stability AI는 텍스트 프롬프트로 현실적인 이미지를 생성하는 Stable Diffusion과 같은 시스템으로 AI 분야에서 큰 반향을 일으켰습니다. 이제 이 회사의 생성 오디오 연구 랩이 Harmonai가 실시간으로 고충실도 오디오를 생성할 수 있는 새로운 시스템 Stable Audio를 공개했습니다.
확산 기반 생성 모델의 발전은 생성형 AI에 큰 영향을 주어, 생성되는 멀티미디어 콘텐츠의 품질과 제어 가능성에서 놀라운 진전을 이끌었다. 그중에서도 잠재 확산 모델은 학습과 추론 모두에서 더 빠른 속도를 제공한다.
그러나 특히 완곡에 가까운 전체 길이의 곡을 생성하는 일은, 기존 확산 모델이 고정 크기 출력을 전제로 한다는 특성 때문에 여전히 복잡한 과제로 남아 있다.

아키텍처

Stable Audio는 잠재 확산 모델로 알려진 확산 모델을 사용한다.
먼저 변분 오토인코더(VAE)가 오디오를 압축하여 간결한 잠재 표현으로 변환한다. VAE는 완전 합성곱 신경망 아키텍처를 사용해 임의 길이의 오디오 클립을 인코딩과 디코딩할 수 있으며, 이 과정에서 품질을 유지한다.
텍스트 조건화를 위해 Stable Audio는 사전 학습된 CLIP 유사 텍스트 인코더 모델을 사용하여 프롬프트 텍스트에서 의미적 특징을 추출��다. 이를 통해 모델은 단어와 소리 사이의 관계를 이해할 수 있다.
또한 모델은 원하는 출력의 시작 시점과 총 길이를 나타내는 타이밍 임베딩으로 조건화된다. 이를 통해 유연한 길이의 오디오를 생성할 수 있다.
조건화된 확산 모델 자체는 9억 개 매개변수를 갖춘 합성곱 U‑Net 아키텍처이다. 이 모델은 잔차 블록, 자기 주의, 교차 주의 계층을 활용해 텍스트와 타이밍으로 조건화된 잠재 오디오를 반복적으로 디노이징한다. 주의 모듈의 메모리 최적화를 통해 더 긴 시퀀스를 처리할 수 있다.



학습

이 시스템은 음악, 음향 효과, 연주 샘플을 포함한 80만 개가 넘는 오디오 파일로 구성된 데이터셋으로 학습되었다. 테스트 결과, Stable Audio는 NVIDIA A100 GPU에서 1초 이내에 95초 길이의 고품질 스테레오 오디오를 생성할 수 있었다.

말할 수 있을까?

이 시스템은 음악, 음향 효과, 연주 샘플로만 학습되었으며 음성 데이터는 포함되지 않았다. 따라서 기본 상태에서 자연스러운 사람 음성을 생성하는 능력은 높지 않을 가능성이 크다.

모두에게 개방됨

Harmonai는 Stable Audio가 AI 오디오 생성 분야의 최첨단을 대표한다고 말한다. 이 연구소는 오디오 AI 연구의 발전을 위해 시스템의 오픈 소스 버전을 공개할 계획이다. 필요할 때마다 제어 가능한 고품질 오디오를 생성할 수 있게 되면 여러 산업 전반에서 새로운 창작 가능성이 열릴 수 있다.

발표: https://stability.ai/research/stable-audio-efficient-timing-latent-diffusion

이 문서는 AI로 번역되었습니다. 오역이 의심되는 부분이 있으면 댓글로 알려주세요. 원문 보고서는 아래 링크에서 확인할 수 있습니다: 원문 보고서 보기