1. Motivation

단안(monocular) 비디오에서 geometry와 motion을 unsupervised 방식으로 학습하는 것이 목표다. 특히 움직이는 물체를 고려하기 위해 단순한 static scene 가정을 넘어, 픽셀 레벨에서 3D Motion을 전체적으로(holistically) 이해하는 프레임워크를 제안한다.

기존의 unsupervised depth/motion 학습 방법들은 static scene 가정에 기반하여, 독립적으로 움직이는 물체(dynamic object)를 제대로 다루지 못한다. 움직이는 물체 영역은 photometric loss의 위반을 일으키며, 이를 무시하거나 별도의 mask로 처리하는 방식은 정보 손실을 초래한다.

3. Proposed Method

전체 구조

네트워크는 세 가지 서브네트워크로 구성된다:

  • Motion Net: 카메라 포즈(ego-motion) 추정
  • Depth Net: 각 프레임의 depth map 추정
  • Flow Net: 2D optical flow 추정

Holistic Motion Parser (HMP)

네 가지 정보(2D flow, camera pose, segmentation mask, depth)를 입력으로 받아 occlusion mask를 출력하는 3D Motion Parser다. 구체적으로:

  • t 프레임에서 s 프레임으로 변환한 3D 좌표와 t 프레임에서의 3D 좌표를 빼면 전체 scene flow가 남는다.
  • 배경 마스크 = 1 - 물체 마스크를 적용하면 background motion과 object motion을 분리할 수 있다.
  • 모션 추정에는 두 가지 방식이 가능하다: SfM 기반 방법과 flow 기반 방법. 두 방법이 정확하다면 이론상 동일한 결과를 내야 한다.

Loss 설계

강한 supervision을 주더라도 모델의 수렴이 어렵기 때문에, bi-directional warping loss를 추가하였다. 단방향 warping 뿐만 아니라 역방향 warping에 대해서도 photometric loss를 계산하여 모델의 안정적인 학습을 돕는다.

4. Experiments

2D optical flow, depth, 3D motion 각각에 대해 벤치마크 평가를 수행하였다. 배경과 물체를 명시적으로 구분하는 HMP 모듈이 전체 성능 향상에 기여함을 보였다.

5. Conclusion & Limitation

Every Pixel Counts는 모든 픽셀의 3D 모션을 고려하는 holistic 접근법을 제안한다. 2D flow, camera pose, depth를 통합하여 3D scene flow를 unsupervised로 학습하는 프레임워크를 구성하였다. 다만 HMP 모듈의 복잡성으로 인해 학습 안정성 문제가 있으며, 강한 supervision 없이는 수렴이 어렵다는 한계가 있다.