[논문] The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth
1. Motivation 많은 depth estimation 애플리케이션에서 비디오 프레임 형식의 시퀀스 정보는 테스트 타임에도 사용 가능하다. 그러나 대부분의 monocular depth 네트워크는 이러한 추가 시간적 신호를 활용하지 않아, 중요한 정보를 무시하고 있다. 이 논문은 multi-frame을 활용하는 cost volume 기반 네트워크를 제안한다. 훈련 시에는 future 프레임까지 사용하지만, 테스트 시에는 과거 프레임만 사용하여 온라인 추론에도 적합하도록 설계했다. 2. Related Work Cost volume은 MVS(Multi-View Stereo) 기반 depth estimation에서 서로 다른 시점 또는 프레임 간 픽셀의 기하학적 비교를 측정하는 방법으로 활용되어 왔다. Multi-frame 정보를 self-supervised 방식으로 활용한 연구들은 pose network와 연계하여 프레임 간 reprojection error를 최소화하는 방향으로 발전해 왔다. ...