1. Motivation
많은 depth estimation 애플리케이션에서 비디오 프레임 형식의 시퀀스 정보는 테스트 타임에도 사용 가능하다. 그러나 대부분의 monocular depth 네트워크는 이러한 추가 시간적 신호를 활용하지 않아, 중요한 정보를 무시하고 있다.
이 논문은 multi-frame을 활용하는 cost volume 기반 네트워크를 제안한다. 훈련 시에는 future 프레임까지 사용하지만, 테스트 시에는 과거 프레임만 사용하여 온라인 추론에도 적합하도록 설계했다.
2. Related Work
Cost volume은 MVS(Multi-View Stereo) 기반 depth estimation에서 서로 다른 시점 또는 프레임 간 픽셀의 기하학적 비교를 측정하는 방법으로 활용되어 왔다. Multi-frame 정보를 self-supervised 방식으로 활용한 연구들은 pose network와 연계하여 프레임 간 reprojection error를 최소화하는 방향으로 발전해 왔다.
3. Proposed Method
Building Cost Volume
- 코스트 볼륨은 서로 다른 프레임 사이의 픽셀 depth에 대한 기하학적 비교를 측정
- Pose 정보가 필요하며, pose network를 통해 훈련 (reprojection error로 supervision)
- 각 프레임의 인코딩 feature map은 target 이미지 It로 warping되며, 채널 두께는 min depth ~ max depth 범위로 매핑
Adaptive Cost Volume
기존 cost volume은 하이퍼파라미터 d_min, d_max가 필요하다. Adaptive cost volume은 이 범위를 데이터로부터 학습함으로써 하이퍼파라미터 의존성을 줄인다.
Cost Volume Overfitting 해결
Cost volume은 static region에 대한 정보를 담고 있어, dynamic region은 신뢰하기 어렵다는 문제가 있다. 이를 해결하기 위한 방법이 별도로 제안되어 있다.
Static Cameras and Start of Sequence
Multi-view stereo 기반 방법에는 두 가지 엣지 케이스가 있다:
- 이전 프레임이 없는 경우 (시퀀스 시작): cost volume tensor를 0으로 초기화하여 처리
- 두 프레임 사이에 카메라 이동이 없는 경우 (정적 카메라):
I_{t-1}입력을 color augmentation을 적용한I_t로 교체
4. Experiments
- KITTI 데이터셋에서 self-supervised depth estimation 성능 평가
- Single-frame 방법 대비 multi-frame cost volume 활용이 depth 정확도 향상에 기여함을 확인
- Adaptive cost volume이 고정된 depth range 가정 대비 성능 향상에 유효
5. Conclusion & Limitation
비디오 시퀀스에서 multi-frame 정보를 cost volume으로 활용하여 self-supervised monocular depth estimation의 성능을 향상시켰다. 훈련 시 future 프레임을 사용하고 테스트 시 past 프레임만 사용하는 설계는 실용적이다. 다만, cost volume이 dynamic region을 신뢰하기 어렵다는 한계는 여전히 남아 있으며, 정적 카메라 케이스 처리(color augmentation 대체)의 타당성도 추가 검토가 필요하다.
개인적으로는 Cost Volume을 attention 구조로 바꾸면 dynamic region에 더 집중할 수 있지 않을까 하는 아이디어가 있다. Cost Volume을 attention으로 대체하고, 이를 recurrent하게 적용하는 방향도 흥미로운 연구 방향이 될 것이다.