1. Motivation

단안 비디오에서 실시간(real-time) depth 추정을 목표로 한다. 기존의 단안 depth 추정 방법들은 각 프레임을 독립적으로 처리하기 때문에 시간적 일관성(temporal consistency)이 부족하고, 프레임 간 depth 결과가 흔들리는(flickering) 문제가 있다. 이 논문은 LSTM을 활용하여 시간적 정보를 누적함으로써 temporal consistency를 개선하고, 실시간 처리 속도를 달성한다.

단안 depth 추정은 크게 supervised와 self-supervised 방식으로 나뉜다. 비디오 입력에서 temporal 정보를 활용하는 연구들도 있었으나, 실시간 처리와 temporal consistency를 동시에 달성하는 방법은 드물었다. LSTM 기반의 recurrent 구조는 시퀀스 데이터에서 시간적 의존성을 학습하는 데 효과적이다.

3. Proposed Method

LSTM 기반 Temporal 모델링

비디오의 연속된 프레임들을 LSTM 네트워크에 순차적으로 입력하여 이전 프레임의 정보를 hidden state로 누적한다. 이를 통해 각 프레임의 depth 추정이 이전 프레임들의 정보를 활용할 수 있다.

Spatial Loss

개별 프레임에서의 depth 추정 정확도를 높이기 위한 공간적 loss다. 픽셀 레벨의 depth 값이 GT(또는 photometric warping 기반 pseudo-GT)와 일치하도록 학습한다.

Temporal Loss

인접한 프레임 간의 depth consistency를 강제하는 loss다. 연속된 프레임에서 추정된 depth가 시간적으로 일관성을 가지도록 regularization을 적용한다.

4. Experiments

KITTI와 Cityscapes 등의 벤치마크에서 평가하였다. LSTM 기반 temporal modeling이 프레임 간 consistency를 향상시키며, Spatial + Temporal loss의 조합이 정확도와 일관성 모두에 기여함을 보였다. 실시간 처리 가능한 속도를 달성하였다.

5. Conclusion & Limitation

LSTM을 활용한 temporal consistency 모델링이 비디오 depth 추정의 flickering 문제를 완화하는 데 효과적임을 보였다. 실시간 처리와 temporal consistency라는 두 마리 토끼를 잡는 접근법이다. 다만 LSTM의 hidden state 크기에 따른 메모리 요구량과, 긴 시퀀스에서의 학습 안정성은 추가 연구가 필요하다.