1. Motivation
Disparity(시차)는 장면의 context에 따라 값이 크게 달라지는 특성이 있다. 기존 CNN 기반 depth estimation은 locality 연산 때문에 넓은 context를 보지 못하는 한계가 있다. 이 논문은 self-attention을 통한 non-local context 집계와 **Discrete Disparity Volume (DDV)**을 결합하여 이 문제를 해결하고자 한다.
핵심 가설: pixel-level 예측 문제에서 correct context는 CNN이 접근하지 못하는 non-contiguous location에 걸쳐 있다 → self-attention의 필요성.
2. Related Work
- Monodepth2: Self-supervised monocular depth estimation의 강력한 베이스라인. ResNet-18 encoder 기반.
- Self-Attention in Vision: Semantic segmentation에서 context 정보를 aggregation하는 전략으로 유효성이 입증되었다.
- Stereo Matching의 Cost Volume: Disparity cost volume을 통해 robust한 depth 추정이 가능하다. 이를 monocular SSL 설정에 도입하는 시도가 이 논문의 차별점이다.
3. Proposed Method
Self-Attention Context Module
가장 작은 feature map (B, 512, 24, 80) 크기에서 self-attention을 적용하여 non-local context 정보를 집계한다. 이를 통해 CNN으로는 포착하기 어려운 공간적으로 분리된 위치들 사이의 관계를 학습한다.
Discrete Disparity Volume (DDV)
Stereo matching에서 사용되는 cost volume 개념을 monocular SSL로 확장한 모듈이다. Disparity를 이산(discrete) 값으로 분할하여 각 disparity 후보에 대한 확률 분포를 학습한다.
전체 디코딩 과정
- 가장 작은 feature map (B, 512, 24, 80)에서 Self-Attention Context Module로 context를 집계한 뒤, DDV를 통과하여 (“disp”, 3)을 출력
- 업샘플링 과정에서는 attention을 사용하지 않고, 새롭게 들어오는 feature map마다 concat하여 DDV를 통과한 후 (“disp”, 2), (“disp”, 1)을 순차적으로 출력
4. Experiments
비교군으로 Supervised MDE 모델과 SSL MDE 모델을 모두 포함하며, MDE에서 표준적으로 사용되는 7가지 metric으로 평가하였다.
비판적 검토:
- 베이스라인(Monodepth2)은 ResNet-18 encoder를 사용하는 반면, 이 논문은 ResNet-101을 사용 → encoder capacity가 크기 때문에 성능이 더 좋을 수 있음
- 디코더 capacity도 베이스라인보다 크므로, 단순한 capacity 증가 효과를 배제하기 어려움
- (24, 80) feature map에서만 attention을 적용한 이유에 대한 명확한 분석이 부족
5. Conclusion & Limitation
Self-attention과 Discrete Disparity Volume을 결합하여 monocular depth estimation의 성능을 개선하였다. (24, 80) 크기의 feature map에서 attention을 적용하는 것이 실험적으로 유효함을 보였으며, stereo matching의 cost volume 아이디어를 SSL 설정에 도입한 점이 의의가 있다.
그러나 베이스라인 대비 encoder/decoder capacity 차이를 통제하지 않아 성능 개선의 원인이 명확하지 않다는 점이 한계이다. DDV의 기여도를 별도로 평가하는 ablation 실험이 더 필요하다.