[논문] Unsupervised Monocular Depth Learning in Dynamic Scenes
1. Motivation 지도 학습 기반 depth estimation은 방대한 레이블링이 필요하다. SfM(Structure from Motion) 모델은 2-view 기반으로 scene geometry를 이해하지만, texture, occlusion, 그리고 moving objects 문제가 남아 있다. 동적 물체에 대해서는 semantic 정보를 auxiliary network에 주어 모션을 학습하는 방법도 있지만, 과연 semantic signal이 반드시 필요한지에 대한 의문이 있다. 이 논문은 그 어떤 semantic signal도, stereo도, GT도 없이 dynamic scene의 depth를 비지도 학습으로 풀고자 한다. 2. Related Work Monodepth2는 동일한 속도로 움직이는 static pixel들을 photometric loss 계산에서 제외했다. 이를 제외하지 않으면, moving object를 머나먼 배경(무한한 depth)으로 추론하는 “hole” 문제가 발생할 수 있기 때문이다. 그러나 monodepth2는 특정 유형의 object motion에 한해서만 문제를 해결했다는 한계가 있다. ...