Google의 Parti: 최신 텍스트-투-이미지 생성 모델
Google가 오늘 Parti를 통해 최신 텍스트-투-이미지 생성 모델을 공개했습니다. 이 글은 AI 번역 기사입니다. 오역이 있을 수 있으니 댓글로 알려 주세요.
Created on September 15|Last edited on September 15
Comment
요즘 텍스트‑투‑이미지 생성 모델이 큰 화제지만, 이번 발표는 다소 갑작스럽고 예상 밖입니다. 바로 뒤이어 나온 이번 소식은 Imagen 발표이전에 Google Research가 선보인 텍스트‑투‑이미지 생성 모델에 이어, 같은 목표를 위한 또 하나의 모델을 공개하기로 한 것이다.
오늘 주목받는 이 최신 모델의 이름은 파르티 (파스웨이즈 오토리그레시브 텍스트‑투‑이미지). 한편 Imagen 그리고 DALL·E 2 은 확산 모델이며, 파르티는 이어서 DALL·E의 뒤를 잇는 오토리그레시브 모델이다. 아키텍처와 학습 방식이 무엇이든 최종 용도는 같다. Parti를 포함한 이러한 모델은 사용자의 텍스트 입력을 바탕으로 세밀한 이미지를 생성한다.
Parti 공개와 함께, Google의 텍스트‑투‑이미지 모델로 이미지를 생성하는 과정을 설명한 블로그 글이 다음 링크에서 제공됩니다: https://blog.google/technology/research/how-ai-creates-photorealistic-images-from-text/
Parti 세부 정보
연구진은 Parti를 네 가지 크기로 만들었으며, 파라미터 수는 3억 5천만, 7억 5천만, 30억, 200억이다. 이 모델들은 다음을 사용해 학습되었다 Google Cloud TPU 이렇게 거대한 모델 규모를 손쉽게 구축할 수 있도록 지원했다. 웹사이트에는 모델 크기 간 비교가 여러 개 제공되어 있지만, 여기서는 논문에서 가져온 몇 가지 예시만 소개하겠다(왼쪽에서 오른쪽으로 가장 작은 모델부터 가장 큰 모델 순).


다른 텍스트‑투‑이미지 생성기들과 마찬가지로, Parti도 여러 가지 유사한 한계에 부딪힌다. 객체 개수 오류, 특징 혼합, 관계적 위치나 크기 오류, 부정 명령 처리가 제대로 되지 않는 문제 등이다. 아래는 Parti가 어려움을 겪는 몇 가지 예시다:

Parti에 참여할 수 있나요?
그래서 아마 이렇게 생각하고 계실 거예요, 혹시 이번에는 이번 달에 나온 최신 대형 텍스트‑이미지 생성기를 우리가 직접 써볼 수 있을까요? 예상하셨겠지만 답은 아니오입니다. 심지어 대기자 명단에 등록하는 식으로라도 접근할 수 있는 절차조차 제공되지 않습니다.
일반적인 이유들이 모두 해당된다. 학습 데이터의 편향, 유해한 이미지를 만들어 낼 수 있다는 우려, 대중에 의한 필연적인 오남용 등이다.
자세히 알아보기
Add a comment