1. Motivation
동적 물체가 있는 장면에서 self-supervised monocular depth estimation을 수행하려면, 카메라 ego-motion과 개별 object motion을 분리하는 문제를 풀어야 한다. 기존의 static world 가정은 moving object가 많은 실제 환경에서 무너진다.
이 논문은 하나의 프레임워크 안에서 multiple dynamic object motion, camera ego-motion, monocular depth를 supervision 없이 동시에 학습하는 방법을 제안한다.
2. Related Work
Dynamic object를 처리하기 위한 이전 연구들은 주로 semantic segmentation mask를 활용하거나, ego-motion과 object motion을 분리하는 별도의 네트워크를 두는 방식을 사용했다. 이 논문은 instance-level의 정보를 활용하여 더 세밀하게 각 객체의 모션을 추정한다.
3. Proposed Method
입력 및 네트워크 구성
- 주어진 것: 입력 이미지 쌍 + prior instance mask (각 객체의 segmentation 마스크)
- Background mask:
1 - {모든 인스턴스 마스크의 합집합}으로 정의
네트워크 구성:
- Depth network: 이미지 2장을 입력받아 depth map 2장 출력
- Camera motion network: 마스킹한 배경 이미지 두 장을 입력받아 두 SE(3) 벡터(카메라 간 변환) 출력
- Object motion network: warped 인스턴스 이미지와 prior mask로 마스킹한 인스턴스 이미지를 concat하여 k번째 인스턴스의 SE(3) 모션 추정
Instance-aware Photometric Loss
이미지가 warping되면서 생기는 depth 차이를 1에서 빼면 weight mask가 생성된다. 이는 깊이가 얕은 (foreground) 오브젝트에 더 큰 weight를 부여하기 위함이다. 이 weight를 기존 인스턴스 마스크에 곱하고, 최종적으로 photometric loss + SSIM loss에 곱하여 instance-aware photometric loss를 구성한다.
Geometric Consistency Loss
warped depth와 해당 프레임의 depth 차이를 instance warping mask를 곱하여 그 영역만 계산한다.
Smoothness Loss (Object Motion)
추정한 object motion 벡터와 prior object motion 벡터를 사용하여 두 가지 항으로 loss를 구성:
- 두 벡터 크기의 차이 (스케일링 loss)
1 - cosine_similarity(t, t_p): 두 벡터의 방향이 같으면 유사도 1 → loss 0
$$L_t = \sum_{k \in 1,2,…,K} \left( |t| - |t_p| \right) + \left(1 - \text{similarity}(t, t_p)\right)$$
Object Height Consistency Loss (Static Object)
카메라와 같은 속도로 달리는 물체는 정적 배경으로 인식되어 무한한 depth가 생기는 문제가 발생한다. 이를 방지하기 위해 물체의 픽셀 높이와 학습하는 height에 대한 consistency loss를 설계한다.
4. Experiments
- KITTI 데이터셋에서 dynamic scene depth estimation 성능 평가
- 카메라 ego-motion과 개별 object motion을 동시에 추정하는 성능 확인
- Instance-aware loss가 dynamic object 영역의 depth 정확도에 기여함을 검증
5. Conclusion & Limitation
Instance mask prior를 활용하여 dynamic scene에서 depth, ego-motion, object motion을 동시에 self-supervised 학습하는 프레임워크를 제안했다. 다만, prior instance mask가 필요하다는 점이 완전한 unsupervised 방법이라 보기 어렵게 만든다. Instance mask의 품질이 depth 및 motion 추정에 직접적인 영향을 미치는 dependency도 존재한다.