[논문] Attention Meets Geometry: Geometry Guided Spatial-Temporal Attention for Consistent Self-Supervised Monocular Depth Estimation

1. Motivation

Self-supervised monocular depth estimation에서 동적 물체나 occlusion이 존재할 때 일관된(consistent) 뎁스 추정이 어렵다. 기하학적 정보(geometry)를 어텐션 메커니즘에 명시적으로 통합하면 일관성 있는 뎁스 추정을 달성할 수 있다는 것이 이 논문의 핵심 아이디어다.

Photometric consistency 기반의 self-supervised 방법들은 rigid scene 가정에 의존한다. 어텐션 메커니즘을 뎁스 추정에 적용한 연구들이 있었지만, 기하학적 정보를 어텐션의 가이던스로 직접 활용한 시도는 제한적이었다. Optical flow와 scene flow를 활용한 temporal consistency 연구도 관련 맥락을 공유한다.

3. Proposed Method

Spatial Attention (Geometry-guided)

두 프레임의 depth로부터 각각 point cloud를 복원하고, 두 point cloud 간의 차이를 계산한다.

이 차이를 exp(-||P - P’||²) 형태로 변환하여 어텐션 값을 구성한다.

두 점의 차이가 크면 어텐션 값 → 0: 동적 오브젝트나 occlusion이 있는 영역일 가능성
두 점의 차이가 작으면 어텐션 값 → 1: rigid한 정적 장면일 가능성

이처럼 기하학적 일치도를 어텐션 가중치로 변환하여, 신뢰할 수 있는 영역에 더 집중하도록 유도한다.

Temporal Attention

서로 다른 프레임의 feature map 간의 correlation을 계산하여 temporal한 일관성을 갖도록 한다. Feature 공간에서 시간적 대응 관계를 어텐션으로 모델링한다.

Cycle Consistency Regularization

Forward-Backward consistency를 활용한 loss를 추가하여, 시간적으로 일관된 뎁스와 모션 추정을 강제한다.

4. Experiments

Self-supervised monocular depth estimation 벤치마크에서 spatial/temporal attention 및 cycle consistency의 각 기여도를 ablation으로 검증한다. 동적 물체가 있는 장면에서 geometry-guided attention의 효과가 두드러진다.

5. Conclusion & Limitation

기하학적 일치도(point cloud distance)를 어텐션 가중치로 변환하여 신뢰 가능한 영역에 집중하는 방법이 핵심이다. Spatial attention과 temporal attention을 결합하고 cycle consistency로 보강함으로써, 동적 환경에서도 일관된 self-supervised depth estimation을 달성한다.

Point cloud 기반 spatial attention은 depth 품질에 민감할 수 있어, 초기 depth 추정이 부정확한 경우 어텐션의 신뢰성이 저하될 수 있다는 한계가 있다.

1. Motivation#

2. Related Work#

3. Proposed Method#

Spatial Attention (Geometry-guided)#

Temporal Attention#

Cycle Consistency Regularization#

4. Experiments#

5. Conclusion & Limitation#