Abstract
Human Mesh Recovery(HMR) - single RGB image에서 인간의 full 3D mesh를 reconstructing 하는 end to end framework
가장 main objectice -> reprojection loss of keypoints를 최소화 하는 것
=> ground truth 2D annotations들만 가지고도 학습을 할 수 있게 함
reprojection loss 만으로는 많이 불충분하다.
-> 이를 해결하고자 adversary train을 시행 (human body shape와 pose parameters 들이 real 인지 아닌지로 학습을 시행함 -> 3D human meshes의 큰 data base를 사용하여..)
HMR -> 2D-to-3D paired supervision의 유무에 관계없이 학습 가능
2D keypoint detections에 의존하지 않으며, image pixel로 부터 바로 3D pose와 shape parameter들을 추론 가능함.
본 모델은 real-time으로 사람이 들어있는 bounding box에 대해 실행 가능하다.
특히나 3D joint location estimation이나 part segementation에 대하여 좋은 성능을 보임.
Introduction
이미지가 잘리거나 가려져도 full 3D body에 대하여 추론을 함.
single image에서 human 3D analysis를 함에 있어서 대다수의 접근은 3D 관절 위치 recover에 집중을 함,
하지만, 본 논문에서는 joint는 전부가 아니라고 생각하였음. 왜냐하면 joint는 부족하지만, 인체가 3차원 공간에 표면으로 정의되기 때문.
또한, joint location이 각 joint에서의 Depth of Field(DoF)을 제약하지는 않음.
-> 3D joint locations만을 이용하여 full pose of the body를 estimate하는 것은 중요함
그에 반해, 본 논문에서는 kinematic tree에서 유사한 3D rotation matrices을 각 joint들에 대해서 output으로 함 => 3D head와 limb(팔다리)의 근원을 찾아냄으로서.
rotation을 예측하는 것은 팔다리가 대칭적이고, 유효한 길이임을 보장함.
-> 본 논문의 모델은 내재적으로 joint angle의 limit을 자연스레 3D body dataset으로부터 학습함 (관절의 자연스러운 각도를 배움
현존하는 3D human mesh recovering 방식은 multi-stage approach임.
-> 2D joint locations 먼저 추정 -> 3D model parameter를 추정하는 방식
=> 이러한 방식은 optimal(최적)하지 못함.
=> 본 논문에서는 end-to-end solution을 제안. image pixel에서 바로 model parameters로 mapping 되게끔.
하지만 challenge들이 있음.
1. large-scale ground truth 3D annotation for in-the-wild images(다양한 이미지의 배경,포즈, 표정 등의 노이즈를 포함하는 이미지)의 부족
-> 현존하는 dataset들은 제약된 환경에서 capture 된 것으로 이러한 것을 이용하여 학습된 모델들은 real world images들에 대하여 generalize가 잘 되지 않는 문제점이 있음
2. single-view 2D-to-3D mapping에 있어서 inherent ambiguities(내재적 모호성) - well known 문제점으로 depth ambiguity로 multiple 3D body configurations들이 동일한 2D projections으로 되는 것. 많은 구성들은 인체측정학적으로 reasonable하지 않을 수 있음(불가능한 joint angels 혹은 너무 skinny 한 bodies)
3. camera를 추정하는 것은 사람과 카메라의 거리에 따라서 크기에 대한 모호성이 생기게 된다.
그래서! 이 논문에서는 novel한 approach로 다음을 제안한다.
핵심 insight -> in-the-wild images에서의 large-scale 2D keypoint annotations와 large-scale의 다양한 포즈와 모양을 하고 있는 사람의 3D mesh가 존재한다는 것.
본 논문에서는 이렇게 unpaired된 2D keypoint annotations와 3D scans를 conditional generative adversarial 방식에서 이점을 취하는 것.
아이디어는 이미지가 주어졌을 때, network는 3D mesh parameters와 camera를 추론해야함. -> 그래야 3D keypoints가 projection 이후의 annotate된 2D keypoints와 매칭될 수 있기 때문.
그러므로 network는 human manifold에 대하여 parameters를 output하게 encourage되고, discriminator는 weak supervision으로서의 역할을 함.
-> network는 자연스럽게 내재적으로 angle limits(각 joint에 대하여)들에 대하여 학습하게 됨 => discourage from making people with unusual body shapes.
추가적인 challenge로 body model parameters은 rotation matrices로 regressing 하는 것. 대다수의 approache들은 rotate estimation을 각도를 나누어 classification 문제로 해결하려함. 그러나 angle 별로 나누는 것은 reprojection loss 측면에서 사소하지 않으며, 이러한 이산화(각도를 그룹별로 분리했기 때문)는 정확도를 낮춘다.
=> 이게 아니라 본 논문에서는 직접적으로 값들을 iterative하게 feedback을 주게 regress하고자 함.
그 구조가 이것.
이러한 접근은 reprojection loss의 사용 측면에서 3D interpreter networks와 adversarial prior 측면에서 adversarial inverse graphics networks와 비슷함.
-> 기존의 기술을 넘어서는 다양한 방법
1. 3D mesh parameters를 image feature에서 바로 추론함 -> 이전의 방식은 2D keypoints에서 추론하였음.
=> two stage training을 안해도 됨. 정보의 손실 또한 방지 가능
2. skeleton이 아닌 skeleton보다 복잡하고 응용에 더 적합한 mesh를 바로 출력함.
3. 본 프레임워크는 end-to-end 방식으로 학습 되어짐. 최고의 성능을 나타냄. 3D joint error와 run time 측면에서.
4. paired2D-to-3D data의 유무에 관계없이 reasonable한 3D reconstruction을 생성함.
=> 제일 강점 - 큰 용량의 2D data에서 3D를 학습할 수 있으므로
-> 3D mesh reconstruction을 평가하기 위한 dataset이 존재하지 않아서 평가를 standard 3D joint location 평가를 위주로 진행.
-> 보조적인 평가요소로 human part segmentation task 수행.
-> 질적으로 in-the-wild images로 평가. 그리고 그에 상응하는 결과를 다른 error percentiles로 보임
2. Related Work
3D Pose Estimation
-> 2 Stage VS Direct estimation
- 2 Stage 방식
=> domain shift에 더 robust해지는 장점, 그러나 2D joint detection에 너무 의존하게됨, 그러나 2D joint detection은 image information을 3D로 추정하면서 손실이 있음.
- Direct estimation 방식
=> 최근(논문 기준) 3D joints들을 이미지에서 direct하게 가져옴. 많은 method들이 camera를 solve하려하지않고, depth relative를 측정. predefined global scale -> 단점) control이 잘된 mocap 환경에서 만들어진 dataset -> generalize에 단점.
Weak-supervised 3D
-> 최근 MoCap과 Real World의 domain gap을 해결하기 위해 end-to-end framework를 사용.