DeepFloydAI의 새로운 확산 모델 IF 입문 안내
이번 글에서는 DeepFloydAI의 새로운 확산 모델 IF를 살펴봅니다. 이 모델은 기존 대부분의 모델처럼 의미 없는 단어로 무너지는 대신, 읽히는 문장을 또렷하게 생성할 수 있습니다. 본 문서는 AI 번역본입니다. 오역이 의심되면 댓글로 알려주세요.
Created on September 12|Last edited on September 12
Comment
4월 28일 Stability AI와 DeepFloyd는 최첨단 텍스트‑투‑이미지 확산 모델인 DeepFloyd IF를 공개했습니다. 이 글은 동반 기술 문서를 덜 기술적으로 소개하는 입문편입니다. 해당 문서는 여기에서 확인할 수 있습니다:
DeepFloydAI의 IF란 무엇인가?
DeepFloydAI는 대부분의 독자들에게 잘 알려진 Stability AI 산하에 속하며 Stable Diffusion 텍스트‑투‑이미지 모델 우리가 이 분야에서 몇 차례 다룬 바와 같이, 그리고 Harmonai고품질 오디오 샘플을 생성하는 생성 모델입니다. DeepFloyd는 방금 몇 가지 중요한 이유로 주목할 만한 새로운 텍스트‑투‑이미지 모델 IF를 공개했습니다.
가장 먼저 알아둘 점은? IF는 오픈 소스이며, 반면 최근의 성공 사례들은 생성 모델링, 예를 들어 DALL·E 2 그리고 Imagen, 특히 그렇지 않습니다. 이 점만으로도 칭찬할 만합니다.
그다음을 넘어 정말 놀라운 점은 IF가 철자를 정확히 쓸 수 있다는 것입니다. 정말입니다. 대부분의 기존 확산 모델은 고품질의 생성 이미지를 만들 수 있지만, 읽을 수 있는 텍스트를 렌더링하는 데는 서투릅니다. 글자와 폰트는 그럴듯해 보이지만, 단어들은 마치 루이스 캐럴의 ‘재버워크’에서 튀어나온 것처럼 읽히곤 하죠. 다음은 DALL·E 2가 “Night Panther” 앨범 커버를 만들려고 시도한 예입니다.

그다지 이상적이지 않습니다.
여기에서 DeepFloyd의 출력은 확실히 더 뛰어납니다.
IF가 의미 있는 문장을 쓰다가 난해한 조어로 흐르지 않는 이유 중 하나는 아키텍�� 내부에 강력한 언어 모델이 포함되어 있기 때문이며, 실무자들이 궁금해할 만한 다른 기술적 세부 사항들도 있습니다. 다만, 이러한 내용은 다음 편에서 다루겠습니다. 동반 기사.
IF가 다른 점은 또 무엇일까요?
오픈 소스라는 점과 초등학교 철자 대회 1라운드에서 탈락하지 않을 정도로 철자를 제대로 쓴다는 점을 넘어, IF는 다른 생성 모델들이 보통 어려워하는 미묘한 과제들에서 더 나은 성능을 자랑합니다.
여기서는 공간 인식과 컴포지션에 대해 이야기합니다. 어떤 객체가 다른 어떤 객체의 앞에 있는지, 혹은 어떤 소재로 만들어졌는지 같은 구체적인 지시를 포함해 프롬프트를 주면, 일부 확산 모델은 이를 제대로 처리하지 못하는 경우가 많습니다. 특히 여러 객체를 여러 형용사로 묘사한 복잡한 프롬프트에서 이런 현상이 두드러집니다. 객체나 속성이 뒤섞이거나, 아예 무시되는 일도 자주 벌어집니다.
IF를 학습시킨 연구진은 다른 생성 모델들보다 스타일 데이터 사용을 줄였습니다. 그래서 만약 ‘애니메이션 스타일의 Abe Lincoln’을 만들고 싶다면, 다른 모델을 찾아보는 편이 좋습니다.
마지막으로, IF를 학습할 때 안전성을 확보하는 데 많은 주의를 기울였습니다. 생성 모델은 유해하거나 노골적인 콘텐츠를 만들어낼 잠재력이 큽니다. 연구진은 학습 데이터에서 선정적이거나 폭력적인 이미지를 제거하기 위해 취한 바람직한 조치들을 상세히 설명해 주었습니다. 이는 언제나 옳은 선택이며, 오픈 소스 프로젝트라면 더욱 그렇습니다.
데이터 얘기가 나온 김에, IF가 남다른 이유 중 일부는 학습 방식에서 드러납니다:
IF는 어떻게 학습되었을까?
DeepFloyd 연구진은 모델을 학습하는 방식에서 매우 영리하고 신중한 선택을 했습니다. 여기서는 기반이 된 두 개의 데이터셋과, 모델을 강력하게 만드는 데 기여한 그 데이터셋에서 제거된 정보들에 대해 이야기하려고 합니다.
먼저: LAIONLAION은 이미지–텍스트 쌍으로 이루어진 방대한 5B+ 규모의 데이터셋입니다. 하지만 다른 대규모 데이터셋과 마찬가지로 완벽하지는 않습니다. 연구진은 등급화를 통해 더 높은 품질의 이미지를 선별하고, 심미성 점수가 낮은 이미지(즉, 보기 안 좋은 것들)는 제거했습니다. 또한 LAION에는 로고나 스톡 티셔츠 모델처럼 실질적인 차이가 거의 없는 이미지가 수천 번씩 반복되어 나타나는 경우가 있음을 확인했습니다. 이런 이미지는 모델이 사실상 암기해 버리기 쉬워, 결과적으로 기능적으로 동일한 생성물을 만들어 내게 됩니다. 앞선 섹션에서 언급했듯이, 유해하거나 불쾌한 출력을 크게 줄이기 위해 노골적인 이미지들도 대거 제거했습니다. 이러한 정제 과정을 통해 전체 학습 데이터셋은 50억 장에서 대략 10억 장으로 줄었습니다.

왜 이것이 중요할까요? 이런 이미지는 앞서 이야기한 공간적·구성적 뉘앙스를 익히는 데 큰 도움을 줍니다. 도형의 재질부터 서로 간의 상대적 방향, 그리고 관찰자인 우리의 시점에 이르기까지 방대한 정보가 응축되어 있습니다. 가장 멀리 반짝이는 구가 있다거나, 전경에 파란색의 매트한 정육면체가 있다거나, 서로 반대쪽에 있는 두 개의 원기둥이 서로 다른 재질로 이루어져 있다는 것을 이해하는 과정이, 모델이 구체적인 공간·재질 관련 프롬프트를 생성하도록 학습하는 데 크게 기여합니다.
그 세심한 데이터셋 설계가, 도입부에서 언급한 바로 그 과제들에서 IF가 더 뛰어난 성능을 보이는 핵심 이유 중 하나입니다.
IF에 대해 알아둘 또 다른 점
Add a comment