1. Motivation
Self-supervised monocular depth estimation에서 photometric consistency만으로는 극복하기 어려운 한계가 존재한다. 텍스쳐가 약한 영역이나 물체 경계에서 성능 향상이 쉽지 않고, 동적 물체의 존재로 인해 pose network의 훈련도 어렵다. 이 논문은 이러한 한계를 명시적인 supervision 없이 implicit한 representation enhancement로 극복하는 방법을 제안한다.
2. Related Work
SfM-Learner 계열의 self-supervised 방법만으로는 texture의 weakness를 극복하기 어렵다. 최근 연구들은 cross-domain learning으로 장면의 semantic 정보를 활용하여 depth 추정 정확도를 높이려 했다. 예를 들어 동적 물체를 제거하거나, semantic instance로부터 물체 모션을 명시적으로 통합하는 방법이 있었다.
그러나 이 연구는 semantic 정보를 명시적으로 넣을 필요 없이, representation enhancement를 통해 암묵적으로 학습하는 방법을 지향한다.
3. Proposed Method
기본 loss 구조는 Monodepth2를 따르며, 세 가지 핵심 기여를 제안한다.
Pseudo Labeling 기반 Segmentation 학습
뎁스 네트워크와 세그멘테이션 네트워크는 인코더-디코더 구조를 공유하는 multi-task 구조를 채택한다. 세그멘테이션 모델을 pseudo labeling으로 훈련하여 모든 이미지에 GT 레이블이 필요하지 않도록 한다.
- 적은 레이블 데이터로 세그멘테이션 모델을 먼저 학습한다.
- 학습된 모델로 unlabeled 데이터의 레이블을 생성하여 GT로 활용한다.
- 원래 레이블 데이터와 새로운 pseudo label 데이터를 합쳐 재학습한다.
Semantic-guided Triplet Loss (Metric Learning)
Semantic segmentation의 가이던스를 통해 로컬 영역의 consistency를 유지하는 방법을 제안한다.
- 같은 오브젝트 내 픽셀들은 depth 레벨이 비슷함 → distance를 당김 (positive)
- 서로 다른 semantic 경계의 픽셀들은 depth 레벨이 달라짐 → distance를 밀어냄 (negative)
구체적으로, 이미지에서 패치를 자르고 패치 중심을 앵커(anchor)로 잡는다. 같은 클래스의 주변 픽셀은 positive, 다른 클래스 픽셀은 negative로 설정하여 triplet loss를 적용한다. 중요한 점은 depth 값 자체가 아니라 representation 공간에서 triplet loss를 사용한다는 것이다.
Cross-task Multi-embedding Attention (CMA)
서로 다른 태스크(depth, segmentation) 간의 cross-domain feature fusion을 위해 양방향 어텐션 모듈을 제안한다.
- 타겟 피처를 K, V로, 레퍼런스 피처를 Q로 사용하는 cross-attention 구조
- Pixel-level 어텐션 계산 후 멀티 채널 임베딩
- 마지막에 레이어 퓨전을 통해 두 도메인의 특징을 통합
4. Experiments
ResNet-18과 ResNet-50 백본으로 나누어 실험하고, 동일한 백본을 사용한 다른 self-supervised depth estimation 모델과 비교하였다. 모든 지표에서 SOTA를 기록하였으며, 제안한 방법론(segmentation labeling loss, triplet loss, CMA 모듈, 고해상도 여부)별 ablation에서도 성능 변화가 두드러지게 나타났다.
5. Conclusion & Limitation
픽셀 레벨로 서로 다른 오브젝트의 임베딩을 triplet loss로 클러스터링한다는 아이디어가 핵심이다. 이는 배경(BG) 피처와 오브젝트(FG) 피처의 임베딩을 contrastive learning으로 분리하는 아이디어와 맥락을 같이한다.
서로 다른 모달리티(depth, segmentation) 간의 cross-attention이 단일 모달리티보다 더 좋은 성능을 낼 수 있음을 실증적으로 보인 점도 중요한 인사이트다.