동적 카메라 움직임을 포함한 단안 비디오에서의 인간 동작 분석
이 글은 Ri Yu, Hwangpil Park, Jehee Lee의 논문 “Human Dynamics from Monocular Video with Dynamic Camera Movements”를 심층적으로 개요한다. 이 글은 AI 번역본입니다. 오역이 있을 경우 댓글로 알려 주세요.
Created on September 15|Last edited on September 15
Comment
이 글에서는 Ri Yu, Hwangpil Park, Jehee Lee의 논문 “Human Dynamics from Monocular Video with Dynamic Camera Movements”를 심층적으로 살펴본다. 먼저 포즈 추정에 대해 설명한 뒤, 제안하는 방법을 개괄하고 인간 동역학 주제로 들어가겠다.
다음 내용을 다룹니다:
목차(클릭하여 펼치기)
시작해 보겠습니다!
포즈 추정이란 무엇인가?
포즈 추정은 관절을 위치 추정하여 다양한 객체의 방향과 포즈를 추정하는 일반적 과제이다 (관절 구조). 자주 볼 수 있다 인간 게임 및 애니메이션과 같은 실제 활용 사례에서의 포즈 추정. 하지만 이 문제를 해결하는 것은 놀라울 만큼 어렵다. 왜 그럴까? 간단히 말하면:
- 신체 다른 부위에 의한 강한 가림
- 작고 거의 보이지 않는 관절 때문에 키포인트가 보이지 않게 된다
- 의복, 체형, 조명에 따른 변이
- “총체적”에 대한 전반적 필요(전역) 컨텍스트
- 인간 신체의 높은 자유도(DOF)로 인해 가능한 포즈의 공간이 매우 크다
딥러닝은 다음과 같은 연구들에 의해 포즈 추정에 성공적으로 적용되었다 Jain 등(2013) 그리고 Toshev 등(2014) 다양한 학습 패러다임을 기반으로 사용하여 합성곱 신경망(CNNs)이는 효율성과 전역 문맥이 부족했던 기존의 “부위 기반 모델”(극단적인 전처리와 특징 공학에 의존한 관절별 모델)을 개선한 것이다. 기존 접근은 전체 포즈의 문맥 없이 특정 관절만을 모사해 한계가 있었다.
후속 연구인 계단식 피라미드 네트워크 Chen 등(2018)은 검출기를 통해 사람 바운딩 박스를 먼저 생성하고, 이어서 신경망으로 키포인트를 위치 추정하는 현대적 2단계 파이프라인을 따르며, 이러한 방법을 개선해 다중 인물 포즈 추정을 가능하게 했다.스켈레톤 생성) 이 바운딩 박스를 기반으로
2차원 포즈 추정은 2차원 포즈를 추정하는 과제인 반면 반면, 3차원 포즈 추정은 깊이 요인까지 포함해야 하므로 더 어려운 문제이며, 즉 3차원 포즈를 추정하는 과제이다. . 3차원 포즈 추정의 많은 중요한 연구는 다음과 같은 방법론을 통해 전역 문맥에 의존한다 스켈레톤 피팅, 시계열 네트워크, 사람-물체 상호작용, 그리고 적대적 사전 지식.
오랫동안 광학식 모션 캡처 기반 데이터셋이 고품질의 인간 동작 데이터를 수집하는 데 사용되어 왔지만, 구축 비용이 매우 높고 설치가 어렵다는 문제가 있었다. 반면, 비디오는 손쉽게 접근할 수 있고 비용도 매우 낮아, 영상 기반의 인간 동작을 얻을 수 있는 즉시 사용 가능한 자료원이다.
그러나 영상 기반 자세 추정의 대부분 연구는 카메라가 고정된 단안 설정에서 촬영된 정지 영상이라는 가정을 바탕으로 하였고, 이러한 사전 지식과 캘리브레이션을 적극적으로 활용해 왔다.
방법

파이프라인은 비디오 클립 그리고 시뮬레이션된 캐릭터 모델 입력으로, 그리고 환경 모델 기하학적 프리미티브로 구성된다. 이 모델은 프리미티브와의 상호작용을 포함한 3D 인간 동작을 재구성하는 동안 장면 기하의 배치를 추정하는 데 도움을 준다.
총 5개의 모델이 사용된다.
- 2D 포즈 추정기: 저자들은 사전 학습된 모델을 사용한다 OpenPose 프레임워크 2D 포즈를 예측하기 위해. 이러한 모델들은 대규모 데이터셋으로 사전 학습되었지만, 우리가 재구성하려는 동적인 동작(댄스, 파쿠르)과는 성격이 달아 때때로 실패한다. 이를 보완하기 위해, 2D 포즈 추정기는 다음과 같이 입력된다 시간적 일관성과 신뢰도 값을 기준으로 최적의 포즈 출력을 선택하기 위해 각 프레임의 회전된 버전을 함께 처리한다.
- 접촉 추정기: 이 방법들은 물리적 사전지식에 기반해 인간의 동역학을 학습하는 데 크게 의존하므로, 접촉은 상호작용을 학습하는 데 도움을 주는 중요한 정보원이다. 이전 연구인 렘페 외.정적 시점을 가정한 단안 영상에서 발-지면 접촉을 탐지하는 네트워크를 개발했던 이전 연구를 바탕으로, 저자들은 이 시스템을 동적 시점의 영상에서도 작동하도록 수정했다. 이 네트워크를 사용해 발의 높이와 속도에 기반한 접촉 레이블을 포함하는 렌더링 이미지를 생성하고, 이를 감독 학습으로 접촉을 추정하는 네트워크를 학습시킨다. 입력으로는 2D 포즈 추정기의 결과를 사용하며, 각 발 노드에 이진 값을 레이블링한다(포즈 추정기는 본질적으로 링크와 노드로 이루어진 그래프를 출력한다). 한편 손-물체 접촉 정보는 수동으로 제공된다.
- 정책 학습기: 곧 자세히 다루겠다.
- 장면 기하 구성기: 이것도요.
인간 동역학
그 우리 인간형의 동역학 모델은 비례-미분(PD) 서보로 제어되는 링크와 관절로 구성된 골격 형태이다. 우리의 목표는 앞선 파이프라인에서 제공된 추정 2D·3D 포즈, 접촉 레이블, 물체 상호작용 힌트를 바탕으로, 영상 속 3D 인간 동작을 모사하도록 학습하는 제어 정책(컨트롤러)을 학습하는 것이다.
만약 제어 정책으로서, 여기서 는 동작이며 어떤 시점에서의 동역학 모델의 상태이다 어떤 환경에서 그러면 수행된 동작이 목표 포즈를 제공한다 해당 시점의 PD 제어를 위해 의 형태로
여기서 3D 포즈 추정에서 얻은 모든 관절 방향으로 구성된 기준 포즈인가요?
상태는 다음과 같은 형태의 집계 벡터로 정의된다:
여기서 : -
- 클립 길이로 정규화한 시간 값을 나타낸다
- 신체 링크의 위치를 나타낸다
- 신체 링크의 방향을 단위 사원수로 나타낸다
- 선형 속도를 나타낸다
- 각속도를 나타낸다
환경 장면 피팅 과정에서 유용하게 쓰이는 물체의 높이, 크기, 위치로 구성된 집계 벡터이다.
강화 학습 빠른 요약
💡
우리는 제어 정책을 찾는다, 예를 들어 할인된 누적 보상을 최대화하는 어떤 시점에서든 , 어떤 상태에 있는 에이전트 어떤 조치를 취할 것이다 . 환경 그 결과로 해당 행동에 반응하여 상태를 다음과 같이 변경한다: 그리고 보상을 부여하며 . 마찬가지로, 할인 인자를 적용해 모든 보상을 합산한 전체 정책의 할인 누적 보상 다음과 같이 주어진다:
그리고 우리의 최적 제어 정책은 다음과 같다:
보상 설계
대부분의 강화학습 알고리즘은 이 일반적인 틀을 따르며, 성패를 가르는 핵심 요인은 보상 설계이다. 이 논문에서의 보상은 많은 하위 항으로 이루어진 꽤 정교한 형태다. 자세히 살펴보자:
추정 자세의 안정적인 트래킹
이 보상은 자세를 정확하게 추적하도록 유도하며, 5개의 하위 항으로 구성된다
- 자세: 추정된 자세와 시뮬레이션된 자세가 잘 일치하도록 선호한다. 만약 는 추정된 모델의 관절 각도 벡터이고 는 시뮬레이션된 모델의 관절 각도 벡터이며, 이 보상은 다음과 같이 계산된다:
- 속도: 추정된 속도와 시뮬레이션된 속도가 잘 일치하도록 선호한다. 만약 는 유한 차분으로 계산한 관절 속도 벡터이다. 이 보상은 다음과 같이 계산된다:
- 몸의 방향: 비디오에서 추정한 몸체 벡터와 시뮬레이션 결과가 잘 일치하도록 유도한다. 안정적인 상방 방향(비디오 전체에서 상방 방향은 하나뿐이다), 각도를 사용한다 시점의 위쪽 벡터 사이에서 (우리의 경우에는 영상 평면에서 위쪽을 가리키는 2D 벡터를 의미한다) 그리고 몸체의 위쪽 벡터 영상 평면에서 (우리의 경우에는 OpenPose로부터 얻은 골반에서 목까지의 2D 벡터를 사용한다)는 3D 공간에서 몸체의 위쪽 벡터를 유도하는 단서로 작용한다. 캐릭터의 골반 관절 위치에서 머리 관절 위치로 향하는 벡터와 3D 공간의 y축 사이의 각도이다. 이 보상은 다음과 같이 계산한다:
- 접촉: 추정된 접촉 상태와의 정확한 일치를 선호한다 및 시뮬레이션된 접촉 상태 (우리의 경우에는 손과 발, 즉 네 개의 말단 효과기만 고려한다). 앞서 설명했듯이 이 상태들은 이진 플래그이며 다음과 같이 계산한다:
- 규제: 이는 표준 L2 정규화를 사용하여 관절 토크를 최소화함으로써 과도한 힘과 불필요한 움직임을 방지하는 항이다. 만약 는 토크를 집계한 벡터이며, 이 보상은 다음과 같이 계산한다:
따라서 전체 추적 손실은 다음과 같이 주어진다:
정규화에 대해 더 자세히 알아보려면 다음 보고서를 참고하라:
Matrix Factorization from Scratch in JAX: Regularized SVD for Recommendation Systems
Bayesian Hyperparameter Search with Cross Validation for doubly-regularized Matrix Factorization on MovieLens.
Recurrent Neural Network Regularization With Keras
A short tutorial teaching how you can use regularization methods for Recurrent Neural Networks (RNNs) in Keras, with a Colab to help you follow along.
장면 객체와의 좋은 정합

그림 2: 보상 항목: 거리(왼쪽), 정렬(가운데), 질량중심(오른쪽)
이 보상은 전체 장면과의 좋은 정렬을 유도하며, 세 가지 하위 항으로 구성된다
- 거리: 시뮬레이션된 말단효과기(손과 발) 이 원하는 객체와 접촉해 있다. 만약 말단효과기의 위치이며 는 대상 객체의 목표 영역(본 연구에서는 표면 중앙의 4분의 1 영역)이며, 이 보상은 다음을 사용해 계산된다:
- 정렬 접촉 중일 때 캐릭터와 객체의 정렬을 선호한다. 만약 골반의 전방 축을 따라 정의된 단위 벡터일 때, 이 보상은 다음과 같이 계산된다:
- 질량중심: 캐릭터의 궤적 적합성을 알려준다. 만약 착지 시점에서 질량중심과 말단효과기 사이의 거리이며, 예상 질량중심과 예상 착지 위치 사이의 거리이며, 이 보상은 다음과 같이 계산된다:
거리 기반 보상 접촉 플래그가 켜져 있을 때에만 0이 아니다 ().
시뮬레이션된 캐릭터가 기준 포즈와 접촉 타이밍을 완벽하게 추적한다면, 와 같다
💡
따라서 전체 장면 손실은 다음과 같이 주어진다:
학습
가치 함수는 말한다 및 제어 정책 신경망으로 표현된다. 학습 중에는 경험 튜플들이 는 Proximal Policy Optimization(PPO)을 사용하여 수집하고 업데이트한다.
균형 붕괴 튜플의 분포 불균형을 다루는 것이 중요하다. 캐릭터가 비틀거리다 넘어지면 해당 튜플은 학습에 쓸모가 없으므로, 캐릭터가 비틀거릴 경우 영상 종료 시점까지 기다리지 않고 시뮬레이션을 조기 종료한다. 저자들은 조기 종료 여부를 판단하기 위해 질량중심(CoM) 높이, 장애물과의 충돌, 기대 동작에서의 편차도 함께 모니터링하는데, 이는 표본 불균형 문제를 야기한다. 이를 완화하기 위해 경험 튜플은 시간 축에서 균등하게 추출한다.
장면 적합
정책 학습의 계산 비용은 입력 영상의 길이와 장면 내 객체 수에 크게 좌우된다. 저자들은 많은 객체가 등장하는 전체 영상을 대상으로 단일 정책 네트워크를 학습할 필요는 없으며, 대신 시간이 겹치는 더 짧은 구간들에 대해 정책 네트워크들의 ��서를 학습하는 편이 낫다는 것을 발견했다. 각 윈도우에서 학습할 때, 객체의 구성은 이전 객체를 기준으로 매개변수화한다.
저자들은 각 윈도우의 정책을 순차적으로 학습한다. 각 윈도우에 대한 가치망과 정책망의 학습이 끝나면, 해당 윈도우에서 누적 시야를 최대화함으로써 연속된 세 개 객체의 국소 배치를 네트워크로부터 추정할 수 있다.
따라서 전역적으로 일관된 장면 배치는 다음을 최대화한다:
다음과 같은 조건에서:
- 윈도 수이다
- 는 누적 보상이며 번째 창
- 의 최적 정책이다 번째 창
- 정책과 함께 학습된 가치 함수이다
- 의 초기 상태이다 번째 창
참고 문헌
이 글에서 우리는 “동적 카메라 움직임을 갖는 단안 비디오로부터의 인간 동작 역학SIGGRAPH Asia 2021에 발표된 논문으로, 저자들은 기존 방법들의 정적 시점 한계를 극복하여 동적 시점의 비디오까지 처리할 수 있도록 하는 것을 목표로 했다.
이 방식은 카메라가 이동하는 피사체를 추적하도록 패닝, 틸트, 줌을 수행할 수 있게 해준다. 또한 저자들은 카메라 움직임에 어떠한 제약도 두지 않으므로, 영상에서의 신체 병진과 회전은 기준 좌표계의 절대 위치와 직접적으로 대응하지 않는다. 그럼에도 인간의 움직임이 물리 법칙을 따르기 때문에 추론은 가능하다.
추천 자료
Block-NeRF: Scalable Large Scene Neural View Synthesis
Representing large city-scale environments spanning multiple blocks using Neural Radiance Fields
Generating Digital Painting Lighting Effects via RGB-space Geometry
Exploring the paper "Generating Digital Painting Lighting Effects via RGB-space Geometry" in which the authors propose an image processing algorithm to generate digital painting lighting effects from a single image.
EditGAN: High-Precision Semantic Image Editing
Robust and high-precision semantic image editing in real-time
PoE-GAN: Generating Images from Multi-Modal Inputs
PoE-GAN is a recent, fascinating paper where the authors generate images from multiple inputs like text, style, segmentation, and sketch. We dig into the architecture, the underlying math, and of course, generate some images along the way.
Extracting Triangular 3D Models, Materials, and Lighting From Images
In this article, we'll explore a novel and efficient approach for joint optimization of topology, materials, and lighting from multi-view image observations.
Barbershop: Hair Transfer with GAN-Based Image Compositing Using Segmentation Masks
A novel GAN-based optimization method for photo-realistic hairstyle transfer
Add a comment