1. Motivation

Every Pixel Counts(EPC)의 확장 버전으로, geometry와 motion을 jointly 학습하는 프레임워크를 더욱 발전시킨 논문이다. 단안 비디오에서 depth, camera pose, optical flow, 그리고 동적 물체의 3D motion을 holistic하게 이해하는 것이 목표다.

기존의 unsupervised monocular depth/motion 학습 방법들은 static scene 가정에 의존하거나, dynamic object를 explainability mask로 처리하여 무시하는 방식을 사용하였다. Every Pixel Counts(EPC, ECCV 2018)에서 제안한 Holistic Motion Parser(HMP)는 이를 극복하기 위한 시도였으며, EPC++는 이를 더욱 개선하고 확장한다.

3. Proposed Method

EPC++는 EPC의 핵심 아이디어인 holistic 3D motion 이해를 기반으로, joint learning 방식을 강화한다.

  • Depth, motion, optical flow를 통합적으로 학습하는 multi-task 프레임워크
  • 3D scene flow를 픽셀 레벨에서 분리하여 background motion과 object motion을 동시에 학습
  • Bi-directional consistency loss와 multi-scale supervision을 통한 학습 안정성 향상

4. Experiments

Cityscapes, KITTI 등의 벤치마크에서 depth, optical flow, scene flow 각각에 대한 평가를 수행하였다. EPC 대비 전반적인 성능 향상을 보이며, joint learning의 효과를 실험으로 입증하였다.

5. Conclusion & Limitation

EPC++는 geometry와 motion의 joint learning을 통해 각 태스크 간의 상호 보완적 학습이 가능함을 보였다. 다만 여러 네트워크를 함께 학습하는 복잡한 구조로 인해 학습 안정성과 하이퍼파라미터 튜닝이 여전히 도전적인 과제로 남는다.