1. Motivation
지도 학습 기반 depth estimation은 방대한 레이블링이 필요하다. SfM(Structure from Motion) 모델은 2-view 기반으로 scene geometry를 이해하지만, texture, occlusion, 그리고 moving objects 문제가 남아 있다.
동적 물체에 대해서는 semantic 정보를 auxiliary network에 주어 모션을 학습하는 방법도 있지만, 과연 semantic signal이 반드시 필요한지에 대한 의문이 있다.
이 논문은 그 어떤 semantic signal도, stereo도, GT도 없이 dynamic scene의 depth를 비지도 학습으로 풀고자 한다.
2. Related Work
Monodepth2는 동일한 속도로 움직이는 static pixel들을 photometric loss 계산에서 제외했다. 이를 제외하지 않으면, moving object를 머나먼 배경(무한한 depth)으로 추론하는 “hole” 문제가 발생할 수 있기 때문이다. 그러나 monodepth2는 특정 유형의 object motion에 한해서만 문제를 해결했다는 한계가 있다.
3. Proposed Method
이 논문은 임의의 방향의 rigid object translation에 의해 근사될 수 있는 motion pattern을 regularization 방법으로 설명하는 것을 핵심으로 한다.
네트워크 구조
- 두 이미지를 concat하여 각각의 depth map을 추출
- 이 depth map들을 원래 이미지와 함께 channel dim에서 concat하여 motion network에 입력
- Motion network의 출력: 각 픽셀의 3D translation map(object motion)과 ego-motion [R|T]
각 픽셀의 전체 motion은 다음과 같이 구성된다:
T(x, y) = T_obj(x, y) + T_ego
물체의 모션이 없는 픽셀은 ego-motion만 반영되고, 물체가 있는 픽셀은 ego-motion과 object motion이 합산된다.
Motion Regularization Loss
물체와 배경의 모션을 분리하여 생각하면, 하나의 픽셀에 해당하는 모션은 물체 아니면 ego-motion이다. 물체가 없는 픽셀은 모두 ego-motion이고, 이 경우 object motion에 대한 loss는 0이 된다.
Object 영역 내에서 object motion은 크게 변하면 안 되므로, 이를 L2 regularization으로 강제한다:
$$L_{g1}[T(x, y)] = \sum_{i \in T} \iint \left((\partial_x T_i(x,y))^2 + (\partial_y T_i(x,y))^2\right) dxdy$$
Sparsity Loss
이미지 전체에 대해 motion vector의 평균으로 각 픽셀의 motion vector를 나누어 Sparsity loss로 사용한다. Dynamic scene에서 object motion이 희소하게 존재하도록 유도하는 역할을 한다.
4. Experiments
- Semantic signal이나 GT 없이 dynamic scene에서의 depth 학습 가능
- KITTI 등 standard benchmark에서 평가
- Cycle consistency loss 등 추가적인 loss 구성도 포함되어 있으나, 주요 기여는 motion regularization
5. Conclusion & Limitation
Semantic guidance 없이도 motion regularization만으로 dynamic scene의 depth를 비지도 학습할 수 있음을 보였다. Sparsity loss의 수식적 의미는 직관적으로 이해하기 어려운 부분이 있으며, regularization 방식이 복잡한 모션 패턴(회전, 비강체 운동 등)을 얼마나 다룰 수 있는지는 추가 검토가 필요하다.