1. Motivation

비디오 스트리밍에서 얻는 멀티뷰 프레임을 활용하여, 이전 타임스텝에서 계산한 scene geometry 정보를 현재 프레임으로 propagation하는 방법을 제안한다.

논문의 핵심 가정: 포즈(카메라 pose)를 알고 있다는 것. 포즈를 모른다면 pose network로 학습하면 된다. 비슷한 연구들이 이전에도 있었지만, 이 논문은 명시적으로 geometry information을 활용하여 시간적 일관성을 높이고자 한다.

Multi-View Stereo(MVS) 기반 depth estimation은 여러 시점의 이미지로부터 cost volume을 구성하여 depth를 추정한다. 기존의 비디오 기반 depth 방법들은 이전 프레임의 geometry 정보를 충분히 활용하지 못했다. 이 논문은 ConvLSTM을 통해 spatio-temporal fusion을 명시적으로 수행한다.

3. Proposed Method

입력 데이터: t에서 t-eps까지의 이미지 프레임, 각각의 포즈 행렬, intrinsic matrix 출력: 현재 프레임의 depth map

논문의 기여

  1. 2D Conv 기반 Cost Volume 구성
  2. ConvLSTM을 활용한 기하학적 정보 전달
  3. 당시 SOTA 달성

네트워크 구조

  1. Feature Extractor: MnasNet 사용 — 낮은 레이턴시와 높은 효율성 (1/32 스케일까지 축소)
  2. FPN(Feature Pyramid Network): 1/2 스케일까지 해상도 복원. FPN은 여러 스케일의 피처맵을 같은 공간에 임베딩하여 스케일 변화에 강인
  3. Cost Volume 구성: FPN의 마지막 피처맵으로 cost volume 생성. 레퍼런스 depth와 warping depth 간의 픽셀 레벨 correlation을 측정
  4. Cost Volume Encoder-Decoder: raw cost volume을 공간적으로 regularization하는 것이 목적
    • 인코더: cost volume에서 high-level feature 추출
    • 이전 feature 추출 레벨의 정보를 cost volume high-level feature와 concat → 공간적 맥락 부여
  5. Depth Regression and Refinement: 정제된 depth map 출력
  6. Spatio-Temporal Fusion: ConvLSTM을 통해 이전 타임스텝의 geometry 정보를 현재 타임스텝으로 전달

4. Experiments

  • 비디오 기반 MVS depth estimation 벤치마크에서 SOTA 달성
  • Recurrent spatio-temporal fusion이 시간적 일관성에 기여함을 확인
  • FPN을 통한 multi-scale feature 활용이 성능 향상에 유효

5. Conclusion & Limitation

ConvLSTM 기반 spatio-temporal fusion을 통해 이전 프레임의 geometry 정보를 효과적으로 활용할 수 있음을 보였다. 포즈가 알려져 있다는 가정은 실용적인 제약이 될 수 있으며, pose estimation 오차가 depth 품질에 직접 영향을 미친다. 또한 ConvLSTM의 hidden state 크기에 따라 메모리 사용량이 증가하는 한계가 있다.