Skip to main content

Google의 Imagen: 텍스트-이미지 생성을 위한 OpenAI DALL·E 2에 대한 대응

Google는 DALL·E 2에 맞서는 텍스트-투-이미지 생성 모델을 공개했으며, 놀라운 일관성, 다양성, 정확성을 갖춘 포토리얼리스틱 이미지를 생성합니다. 이 글은 AI 번역 기사입니다. 오역이 있을 경우 댓글로 알려주세요.
Created on September 15|Last edited on September 15
불과 지난달까지만 해도 OpenAI가 DALL·E 2를 공개했다는 AI 기반 텍스트‑투‑이미지 생성에서 획기적인 개선입니다. 이제 DALL·E 2 발표 불과 한 달 반 만에, Google이 새로운 프로젝트인 Imagen으로 텍스트‑투‑이미지 생성 분야에 뛰어들었습니다.
Imagen 는 텍스트‑투‑이미지 생성 모델 아키텍처의 다음 단계로, DALL·E 2와 유사한 일관성을 유지하면서 매우 포토리얼리스틱한 이미지를 생성합니다.


Imagen은 어떻게 작동하나요?

Imagen이 다른 텍스트‑투‑이미지 모델과 구별되는 핵심 차이는 모델에서 언어 처리 부분의 규모에 집중했다는 점입니다. Imagen을 개발한 Google 연구진은 Imagen 내부의 언어 모델 규모를 키우면 생성된 이미지가 프롬프트와 더 정확하게 일치하고, 심지어 더 높은 충실도의 이미지를 만들어 낸다는 것을 발견했습니다.
이미지를 생성하는 전체 과정은 몇 가지 단계로 나뉩니다:
  • 먼저 텍스트 전용 데이터로 사전 학습된 언어 처리 모델이 텍스트 입력을 다음 단계에서 더 쉽게 해석할 수 있도록 토큰으로 분해합니다.
  • 다음으로 실제 이미지 생성 모델이 토큰화된 프롬프트를 받아 64×64 이미지를 생성합니다.
  • 그다음 64×64 이미지 데이터와 토큰화된 프롬프트 텍스트를 두 개의 슈퍼 해상도 모델에 입력하여 이미지를 256×256, 이어서 1024×1024로 업스케일합니다. 텍스트 프롬프트도 함께 입력되기 때문에, 업스케일링 모델은 출력물이 원래 프롬프트와 일치하도록 보장하는 데 필요한 문맥을 얻습니다.
  • 마지막으로, 텍스트 프롬프트와 일치하는 생성 이미지가 완성되었습니다.

Imagen의 성능을 잘 정리한 내용은 여기 연구 논문을 해설한 트위터 스레드에서 확인할 수 있습니다:


Imagen으로 이미지 만들기

안타깝게도, 재미있어 보이는 최첨단 머신러닝 모델들과 마찬가지로 우리는 이 모델을 직접 써볼 수 없습니다. 앞으로 사용이 가능해질지에 대한 공식 입장도 없고, 연구자용 접근 포털조차 마련되어 있지 않습니다. 다만 기대해 볼 수는 있겠죠.
당분간은 제공된 샘플 이미지의 아름다움과 혼재된 매력을 감상할 수 있을 뿐입니다.

자세한 내용은 프로젝트 사이트와 연구 논문에서 확인할 수 있습니다.

자세히 알아보기


이 글은 AI로 번역되었습니다. 오역 가능성이 있으면 댓글로 알려주세요. 원문 링크는 다음과 같습니다: 원문 보기