1. Motivation

기존의 단안 카메라 기반 depth estimation 방법들은 테스트 시 한 장의 이미지만을 입력으로 받기 때문에 **시간적 의존성(temporal dependency)**을 본질적으로 무시한다. 그러나 실제 주행 환경에서는 카메라의 trajectory가 장면의 기하학과 높은 상관관계를 가지며, 이러한 시계열 정보를 활용하면 더 정확한 depth 추정이 가능하다.

이 논문은 ConvLSTM 기반의 recurrent network를 depth estimation에 최초로 적용하여 spatiotemporal 정보를 활용하는 방법을 제안한다.

RGB 기반 depth 추정:

  • 비용이 저렴하나 많은 데이터가 필요함
  • 지도 학습은 GT도 함께 필요하고, SSL은 데이터가 많이 필요하며 성능이 제한적

LiDAR 기반 depth 추정:

  • Dense depth point를 통한 completion이 가능하여 결과가 좋지만 센서가 비쌈

시계열 정보 활용의 다른 접근:

  • 여러 프레임을 단순 concat하는 방식은 시퀀스 길이에 유연하게 대응하지 못하고, 3D Conv를 사용해야 할 수도 있음

3. Proposed Method

문제 정의

Depth 추정 문제를 이미지 또는 LiDAR depth map의 spatiotemporal sequence로부터 매핑하는 문제로 정의한다. 장면의 기하학적 구조와 카메라 궤적의 상관관계를 활용하여, 단일 프레임만으로는 얻기 어려운 정보를 recurrent 구조로 누적한다.

네트워크 구조

  • Encoder: ResNet-18 (기존 연구의 설계를 차용)
  • Recurrent Module: ConvLSTM — 비주얼 컴포넌트의 모션 패턴을 시간에 걸쳐 포착
  • Decoder: DispNet 구조 차용

ConvLSTM은 각 시간 단계에서 이전 hidden state와 현재 feature를 결합하여 spatiotemporal 정보를 누적한다. 이를 통해 “과거를 잊지 않는(Don’t Forget the Past)” 추정이 가능해진다.

4. Experiments

KITTI 등 자율주행 데이터셋에서 방대한 실험을 수행하였다. Single-frame 기반의 기존 방법들과 비교하여 recurrent 구조가 depth 추정 정확도 향상에 기여함을 보인다. 특히 연속된 프레임에서의 일관성이 개선됨을 확인한다.

5. Conclusion & Limitation

Recurrent network(ConvLSTM)를 monocular depth estimation에 최초로 도입하여 시계열 정보를 활용하는 프레임워크를 제안하였다. Trajectory 정보가 기하학적 추론에 유효함을 검증한다.

한계로는, 아직 최적의 recurrent 구조나 학습 방법이 확립되지 않았으며, 실시간 성능과 메모리 효율성 측면에서 추가 연구가 필요하다. 또한 Multi-View Depth Estimation using Epipolar Spatio-Temporal Networks 등의 후속 연구로 이어진다.