1. Motivation
기존 CNN 기반의 monocular depth estimation은 local receptive field의 한계로 인해 global context를 충분히 포착하기 어렵다. 신뢰할 수 있는 depth 추정을 위해서는 장면 전체의 global context를 이해하는 것이 중요한데, 이를 위해 attention 메커니즘을 활용하는 방향이 주목받고 있다.
이 논문은 depth 추정의 핵심이 입력 해상도와 동일한 출력을 생성하는 능력에 있다고 주장하며, 해상도를 점진적으로 복원하는 과정에 bidirectional attention을 도입하여 refinement를 수행한다.
2. Related Work
Attention 메커니즘을 depth estimation에 적용한 이전 연구들은 encoder 단계에서 global context를 포착하려 했다. 그러나 decoder 단계에서의 해상도 복원 시에도 attention을 활용하여 세밀한 refinement를 수행하는 시도는 많지 않았다.
Supervised 방식의 depth 학습 연구들은 indoor(NYU Depth V2)와 outdoor(KITTI) 데이터셋에서 평가되어 왔다.
3. Proposed Method
Bidirectional Attention을 활용한 depth estimation 네트워크를 제안한다. 핵심 아이디어는 decoder 과정에서 해상도를 키울 때, 양방향 attention을 통해 spatial refinement를 수행하는 것이다.
- Encoder: CNN backbone으로 multi-scale feature 추출
- Decoder: 해상도를 단계적으로 복원하며, 각 단계에서 bidirectional attention으로 refinement 수행
- Bidirectional attention은 각 stage에서 어떤 공간 영역에 집중하는지를 결정하여, 최종 출력 해상도가 입력과 동일하도록 점진적으로 정보를 보완
4. Experiments
- Indoor 및 outdoor 데이터셋 모두에서 standard depth metric으로 평가
- 비교 대상 모델의 수가 다소 부족하여, 이 방식의 gain이 얼마나 유의미한지 판단하기 어렵다는 한계가 있음
- Stage 별로 attention이 어떤 영역을 바라보는지 시각화를 제공하나, visualization의 양이 충분하지 않음
5. Conclusion & Limitation
Bidirectional attention을 통해 depth estimation의 해상도 복원 품질을 개선할 수 있음을 제안했다. 그러나 supervised 방식으로 학습하였기 때문에, self-supervised 혹은 unsupervised 방식으로도 동일한 효과를 얻을 수 있는지는 추가 연구가 필요하다. 또한 비교 실험의 규모가 작아 방법론의 우수성을 충분히 입증하기 어렵다.