1. Motivation

Self-supervised monocular depth estimation에서 photometric consistency만으로는 극복하기 어려운 한계가 존재한다. 텍스쳐가 약한 영역이나 물체 경계에서 성능 향상이 쉽지 않고, 동적 물체의 존재로 인해 pose network의 훈련도 어렵다. 이 논문은 이러한 한계를 명시적인 supervision 없이 implicit한 representation enhancement로 극복하는 방법을 제안한다.

SfM-Learner 계열의 self-supervised 방법만으로는 texture의 weakness를 극복하기 어렵다. 최근 연구들은 cross-domain learning으로 장면의 semantic 정보를 활용하여 depth 추정 정확도를 높이려 했다. 예를 들어 동적 물체를 제거하거나, semantic instance로부터 물체 모션을 명시적으로 통합하는 방법이 있었다.

그러나 이 연구는 semantic 정보를 명시적으로 넣을 필요 없이, representation enhancement를 통해 암묵적으로 학습하는 방법을 지향한다.

3. Proposed Method

기본 loss 구조는 Monodepth2를 따르며, 세 가지 핵심 기여를 제안한다.

Pseudo Labeling 기반 Segmentation 학습

뎁스 네트워크와 세그멘테이션 네트워크는 인코더-디코더 구조를 공유하는 multi-task 구조를 채택한다. 세그멘테이션 모델을 pseudo labeling으로 훈련하여 모든 이미지에 GT 레이블이 필요하지 않도록 한다.

  1. 적은 레이블 데이터로 세그멘테이션 모델을 먼저 학습한다.
  2. 학습된 모델로 unlabeled 데이터의 레이블을 생성하여 GT로 활용한다.
  3. 원래 레이블 데이터와 새로운 pseudo label 데이터를 합쳐 재학습한다.

Semantic-guided Triplet Loss (Metric Learning)

Semantic segmentation의 가이던스를 통해 로컬 영역의 consistency를 유지하는 방법을 제안한다.

  • 같은 오브젝트 내 픽셀들은 depth 레벨이 비슷함 → distance를 당김 (positive)
  • 서로 다른 semantic 경계의 픽셀들은 depth 레벨이 달라짐 → distance를 밀어냄 (negative)

구체적으로, 이미지에서 패치를 자르고 패치 중심을 앵커(anchor)로 잡는다. 같은 클래스의 주변 픽셀은 positive, 다른 클래스 픽셀은 negative로 설정하여 triplet loss를 적용한다. 중요한 점은 depth 값 자체가 아니라 representation 공간에서 triplet loss를 사용한다는 것이다.

Cross-task Multi-embedding Attention (CMA)

서로 다른 태스크(depth, segmentation) 간의 cross-domain feature fusion을 위해 양방향 어텐션 모듈을 제안한다.

  • 타겟 피처를 K, V로, 레퍼런스 피처를 Q로 사용하는 cross-attention 구조
  • Pixel-level 어텐션 계산 후 멀티 채널 임베딩
  • 마지막에 레이어 퓨전을 통해 두 도메인의 특징을 통합

4. Experiments

ResNet-18과 ResNet-50 백본으로 나누어 실험하고, 동일한 백본을 사용한 다른 self-supervised depth estimation 모델과 비교하였다. 모든 지표에서 SOTA를 기록하였으며, 제안한 방법론(segmentation labeling loss, triplet loss, CMA 모듈, 고해상도 여부)별 ablation에서도 성능 변화가 두드러지게 나타났다.

5. Conclusion & Limitation

픽셀 레벨로 서로 다른 오브젝트의 임베딩을 triplet loss로 클러스터링한다는 아이디어가 핵심이다. 이는 배경(BG) 피처와 오브젝트(FG) 피처의 임베딩을 contrastive learning으로 분리하는 아이디어와 맥락을 같이한다.

서로 다른 모달리티(depth, segmentation) 간의 cross-attention이 단일 모달리티보다 더 좋은 성능을 낼 수 있음을 실증적으로 보인 점도 중요한 인사이트다.