이미지 애니메이션을 위한 1차 모션 모델
이 글은 Aliaksandr Siarohin, Stéphane Lathuilière, Sergey Tulyakov, Elisa Ricci, Nicu Sebe의 NeurIPS 2019 논문을 요약한 것입니다. 이 글은 AI 번역본입니다. 오역이 있을 경우 댓글에서 자유롭게 알려주세요.
Created on September 15|Last edited on September 15
Comment
이 글에서는 소스 이미지에 담긴 객체를 애니메이션화하는 과제를 살펴봅니다 (S) 주행 비디오에 등장하는 유사한 객체의 모션에 기반하여 (D).

학습 파이프라인
동일한 객체 범주에 속한 객체들이 포함된 대규모 비디오 시퀀스가 사용되었습니다. 모델은 단일 프레임과 비디오 속 모션에 대한 학습된 잠재 표현을 결합하여 학습 비디오를 재구성하도록 훈련됩니다. 모델은 모션을 모션 특화 키포인트 변위와 국소 아핀 변환의 조합으로 인코딩하는 방법을 학습합니다.
접근 방식
- 이 프레임워크는 두 개의 주요 모듈로 구성됩니다: 모션 추정 모듈과 이미지 생성 모듈.
- 모션 추정 모듈의 목적은 고밀도 모션 필드를 예측하다 한 프레임에서 D ∈ R 의 주행 비디오 D 으로 소스 프레임 S ∈ R."
- 이후에 이 고밀도 모션 필드는 S에서 계산된 특성 맵을 D의 객체 자세에 맞추다.
- 다음이 존재한다고 가정한다 추상 기준 프레임 R. 두 가지 변환: R에서 S로(TS←R) 그리고 R에서 D로(TD←R) 서로 독립적으로 추정된다. 기준 프레임은 유도 과정에서 상쇄되는 추상적 개념. 이 선택은 독립적인 처리 를 가능하게 한다 D와 S.

2단계 동작 추정 과정
- 조밀 동작 네트워크는 국소 근사들을 결합하여 최종 조밀 동작 장을 얻는다 또한 이 네트워크는 출력한다 가림 영역 마스크 이는 D의 어떤 이미지 영역이 소스 이미지를 워핑하여 복원될 수 있는지, 그리고 어떤 영역은 문맥으로부터 추론해 인페인팅해야 하는지를 나타낸다.
- 마지막으로, 생성 모듈은 드라이빙 비디오에 제공된 대로 움직이는 소스 객체의 이미지를 렌더링한다. A 생성기 네트워크 G 소스 이미지를 다음에 따라 워핑한다 그리고 소스 이미지에서 가려진 이미지 영역은 인페인팅한다.
결과


웹사이트 | 논문
독서 모임
우리는 3,000명 이상의 ML 엔지니어가 활동하는 Slack 커뮤니티에서, 이 글처럼 흥미로운 딥러닝 논문의 저자들과 함께 독서 모임을 진행합니다. #ml-papers 채널에서 대화에 참여하세요.
함께하세요 →
Add a comment
Hello guys, I work on a documentary about my grandfather and I don't have any videos about him, He passed away a long time ago. So I intend to enliven him through this technology from photos do you have any good types to do it in an easy way and the most realistic way its possible? Thank you.
Reply
test
Reply
i wanna use this for funny yt vids bu this s hard
Reply
This seems like an interesting paper. Thank you for the summary Lavanya.
I am wondering if the Keypoint Detector is a pose estimation model?
By reading this summary, I think there is a pose estimation model, image inpainting model and a generative model in play. I might be wrong. It's going to be an interesting read. :)
Reply
