1. Motivation

Self-supervised monocular depth estimation은 LiDAR와 같은 depth label 없이 임의의 이미지 시퀀스만으로 학습할 수 있는 강력한 방법이다. 그러나 동적인 물체(dynamic objects)가 존재하는 장면에서는 photometric loss의 가정(static world assumption)이 무너지기 때문에, 움직이는 객체가 있는 영역에서 depth 추정 품질이 크게 저하된다.

Self-supervised depth estimation의 주요 흐름은 photometric reconstruction loss를 활용한 ego-motion과 depth의 동시 학습이다. 대표적으로 Monodepth2는 동일 속도로 움직이는 픽셀을 photometric loss 계산에서 제외하는 방법을 도입했지만, 특정 유형의 object motion에 한해서만 문제를 해결했다는 한계가 있다.

Dynamic object 문제를 해결하기 위한 또 다른 방향으로는 semantic segmentation 정보를 활용하여 동적 객체 영역을 명시적으로 식별하는 방법이 있다.

3. Proposed Method

이 논문은 depth estimation 네트워크에 지도 학습 기반 semantic segmentation decoder를 결합하여, 동적 객체가 정확히 어느 영역에 위치하는지 guidance를 제공한다.

손실 함수는 두 가지 요소로 구성된다:

  • Depth Estimation Loss: photometric reconstruction loss (self-supervised)
  • Supervised Segmentation Loss: 동적 객체 영역에 대한 cross-entropy loss

Semantic guidance를 통해 네트워크가 동적 객체 영역을 인식하고, 해당 영역에서의 depth 추정을 보다 정확하게 수행할 수 있도록 한다. Segmentation decoder는 depth network와 파라미터를 공유하며, 학습 시에 semantic label을 supervision으로 활용한다.

4. Experiments

  • 평가 데이터셋: KITTI 등 자율주행 벤치마크
  • 평가 지표: AbsRel, SqRel, RMSE 등 standard depth metrics
  • 동적 객체가 많은 장면에서 기존 self-supervised 방법 대비 depth 추정 정확도 개선을 보고

5. Conclusion & Limitation

Semantic segmentation을 auxiliary task로 결합함으로써 dynamic object 문제를 효과적으로 완화할 수 있음을 보였다. 다만, segmentation에 대한 ground-truth label이 학습 시 필요하다는 점에서 완전한 unsupervised 방법이라고 볼 수 없다. 또한, segmentation label을 구하기 어려운 도메인에서의 적용에는 제약이 따른다.