1. Motivation
주행 데이터셋은 대부분 낮에 촬영된 데이터로 구성되어 있다. 이를 야간 주행 장면에 그대로 적용하면 domain shift로 인해 depth estimation 성능이 현저히 떨어진다. 이 논문은 주간/야간 이미지 모두에 대해 robust한 depth estimation 모델을 self-supervised 방식으로 학습하는 것을 목표로 한다.
2. Related Work
- Low light condition 활용: 야간 조건에서 촬영한 이미지를 그대로 활용하지만, unstable visibility 때문에 성능에 한계가 있다.
- GAN 기반 이미지 변환: 주간 이미지를 야간 이미지로 변환하여 학습하는 방법이 시도되었으나, 자연광의 피처를 얻기 어렵고 합성 야간 이미지만으로는 충분한 성능을 내기 어렵다.
3. Proposed Method
핵심 가정: 야간 이미지든 주간 이미지든 동일한 장면의 depth 값은 항상 일정(constant)해야 한다.
이를 위해 이미지 피처를 두 가지로 분리한다.
- Invariant feature: 시간이 지나도 변하지 않는 물리적 구조, 텍스처 등의 정보. 주·야간에서도 유사도가 높게 나타나야 한다.
- Private feature: 시간에 따라 변하는 조명(illumination) 등의 정보.
학습 프레임워크
Invariant Network: weight sharing을 통해 주·야간 이미지의 invariant feature를 학습하고, 주간 depth와 야간 depth를 각각 출력한다.
Similarity loss: Invariant Network로 출력한 주·야간 depth는 서로 유사도가 높아야 하므로 similarity loss를 적용한다.
Private feature network: 주간 이미지만의 private feature, 야간 이미지만의 private feature를 학습하는 별도의 네트워크를 구성한다 (이미지 복원 용도).
Reconstruction loss: Private feature에 invariant feature를 더하고 디코더로 이미지를 복원하여 reconstruction loss로 사용한다.
Orthogonality loss: Invariant feature와 private feature가 서로 orthogonal한 특성을 유지하도록 강제한다.
이미지 warping은 Monodepth2의 pose estimation 방법을 그대로 사용한다.
4. Experiments
- 주간 모델의 성능이 일부 지표에서 그렇게 높지 않은데, 수렴 복잡도가 올라가서 최적 성능을 내기 어려운 것으로 보인다.
- Private feature는 이미지의 luminance와 같은 조명 정보를 포착하는 것으로 시각화되었고, invariant feature는 구조적·텍스처 맥락을 포착하는 것으로 확인되었다.
- 제안한 loss 함수를 baseline에서 하나씩 추가하는 ablation study를 수행하였으나, 어떤 구성 요소가 가장 지배적인지는 명확하지 않다.
5. Conclusion & Limitation
주·야간 이미지를 시간에 불변인 피처와 시간에 의존하는 피처로 분리하는 직관이 separate network framework로 구현된 점이 핵심이다.
다만 낮과 밤의 명확한 이분법적 분류가 아닌, 해질녘과 같은 애매한 도메인에서는 이처럼 explicit하게 분리한 네트워크 구조가 유효할지 의문이다. 주·야간 weight 사이에는 continuous한 domain weight가 존재할 수 있으며, 이를 연속적으로 이어줄 수 있는 방법이 향후 연구 방향이 될 수 있다.