OpenAI의 Sora와 디퓨전 트랜스포머에 대한 몇 가지 세부 사항
가장 유망한 아키텍처들을 결합해 OpenAI가 최신 모델을 공개했습니다! 이 글은 AI 번역 기사입니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
Comment
OpenAI는 물리 세계의 여러 측면을 영상으로 시뮬레이션하도록 설계된 모델 Sora를 공개하며 비디오 생성 모델 분야에서 중요한 도약을 이뤘다. 이 모델은 전통적 접근과 달리 다양한 길이, 해상도, 화면비에서 최대 1분 길이의 고품질 영상을 생성할 수 있다는 점에서 차별화된다. Sora의 기반은 방대한 비디오·이미지 데이터셋으로 학습된 모델이며, 비디오의 시공간 패치를 단위로 처리하는 Diffusion Transformer 아키텍처를 활용한다.
디퓨전 트랜스포머
그렇다면 디퓨전 트랜스포머(Diffusion Transformer, DiT)는 무엇일까요? — 참고로, 아래 설명은 OpenAI가 공식적으로 확인한 내용은 아니지만, 개략적인 수준에서는 유사할 가능성이 높습니다.
Diffusion Transformer(DiT)을 사용해 고품질 영상을 생성하는 과정은 먼저 대상 데이터셋으로 Variational Autoencoder(VAE)를 학습해 데이터를 압축한 잠재 표현(latent representation)을 만드는 것에서 시작한다. 이렇게 얻은 잠재 표현에 대해 forward diffusion 과정을 적용하여 여러 단계에 걸쳐 점진적으로 노이즈를 추가하고, 그 결과 원본 데이터가 점차 왜곡된다. 노이즈가 추가된 latent들은 이후 패치로 분할되고 선형 임베딩을 통해 벡터로 매핑되며, 이 벡터들은 Transformer 모델이 처리하는 토큰으로 취급된다. 공간 정보를 유지하기 위해 이러한 토큰에는 positional embedding이 추가된다.

DiT 모델의 핵심은 이러한 토큰을 일련의 Transformer 블록으로 처리하는 과정이며, 여기에는 클래스 레이블이나 텍스트 설명 같은 추가적인 컨디셔닝 정보를 포함해 생성 과정을 특정 목표로 유도할 수 있다. DiT는 특히 forward diffusion 과정에서 추가된 노이즈를 예측하는 것을 목표로 한다. 이 노이즈 예측을 통해 모델은 잠재 표현을 반복적으로 디노이징함으로써 확산 과정을 효과적으로 역으로 진행할 수 있다. 더 자세한 내용이 궁금하다면 OpenAI 발표에 언급된 참고 자료를 확인해 보길 권한다.

마지막 단계에서는 역확산 과정이 예측된 노이즈를 사용해 데이터의 깨끗한 잠재 표현을 점진적으로 복원한다. 이렇게 디노이징된 잠재 벡터는 VAE의 디코더를 거쳐 최종 이미지 출력으로 생성된다. 초기 데이터 인코딩부터 역확산, 그리고 최종 디코딩에 이르는 이 정교한 파이프라인은, 모델이 노이즈 추가 과정을 역으로 학습해 일관되고 세밀한 이미지를 생성하는 능력을 보여 주며, 트랜스포머 아키텍처와 확산 기반 생성 모델의 혁신적인 결합을 잘 보여 준다.

재캡셔닝
Sora는 언어 이해를 강화하기 위해 재캡셔닝 기법을 적용하여 텍스트-투-비디오 생성의 정밀도를 높인다. 이 기능은 GPT 모델을 활용해 짧은 사용자 프롬프트를 풍부한 서술의 캡션으로 확장함으로써 비디오 생성 과정을 더 효과적으로 안내하도록 한층 강화된다. 제공된 제한적 정보에 따르면, 이 기법은 LLaVA가 사용하는 비주얼 인스트럭션 튜닝 방법과 유사하되, 대상을 이미지에서 비디오로 확장한 형태에 가까운 것으로 보인다.
비디오 및 이미지 편집
독립적인 비디오 샘플을 생성하는 것을 넘어, Sora는 다양한 비디오 및 이미지 편집 작업에서도 뛰어난 성능을 보인다. 정적인 이미지를 애니메이션으로 변환하고, 완벽하게 반복되는 루프 비디오를 만들며, 시간 축으로 비디오를 확장할 수 있다. 또한 Sora는 3D 일관성, 장기적 일관성, 객체 영속성과 같은 새로운 시뮬레이션 능력을 보여 주며, 물리 세계의 복잡한 시나리오를 시뮬레이션하는 도구로서의 잠재력을 시사한다.
제한사항
진전에도 불구하고 Sora에는 한계가 있다. 이 모델은 특정 상호작용에서 물리 현상을 정확하게 모델링하는 데 어려움을 겪거나, 길이가 긴 샘플에서 일관성을 유지하지 못하는 경우가 있다. 그럼에도 연구팀은 Sora와 같은 비디오 모델을 확장함으로써 물리적·디지털 세계의 유능한 시뮬레이터를 개발할 수 있다는 잠재력에 대해 낙관적인 입장이다.
발표문
Diffusion Transformers:
Add a comment