1. Motivation

Scene flow 추정을 위한 기존 센서 기반 방법들은 각각의 한계가 있다: stereo는 캘리브레이션이 필요하고, LiDAR는 비싸며, RGB-D는 사용 환경이 제한적이다. 단안(monocular) 카메라만으로 scene flow를 추정할 수 있을까?

Monocular 추정은 2D → 3D로 가는 ill-posed 문제이다. 이 논문은 반대 방향, 즉 3D → 2D로의 projection을 활용하면 더 정확한 추정이 가능하다는 inverse problem 관점으로 접근한다.

Single-view monocular 접근의 한계:

  • Ill-posed된 문제로 픽셀 레벨의 3D 모션을 인접 프레임들로부터 추정해야 함
  • 성능과 real-time 제약 사이에서 trade-off 존재

Multi-module joint learning 방식:

  • CNN 기반의 이전 방법들은 depth, flow, motion을 joint 학습하는 방식이 많음
  • 학습 스케줄링이 까다롭고, scale ambiguity 문제와 occlusion 문제가 전체 이미지에서 3D scene flow를 추정하는 것을 어렵게 함

3. Proposed Method

아키텍처

PWC-Net을 베이스라인으로 사용한다. PWC-Net의 전체 구조를 유지하되, 디코더 채널 수를 변경하여 scene flow와 disparity를 함께 추정하도록 단일 디코더(single decoder)로 수정하였다.

Multi-module joint learning의 불안정성 문제를 single decoder 구조로 해결한 것이 핵심 설계 선택이다.

Loss 함수

Disparity Loss:

  • Scene flow로 warping → SSIM + L1 Loss
  • 2nd-order smoothness loss

Scene Flow Loss:

  • t 프레임에서 복원한 3D 포인트에 scene flow를 더하고 projection한 픽셀로 warping → SSIM + L1 Loss
  • t 프레임에서 scene flow로 복원한 t-1 좌표와 t-1 프레임의 depth로 복원한 좌표는 같아야 함 → L2 Loss
  • 위 두 식에서 얻은 reconstruction 이미지와 scene flow 픽셀 → 2nd-order smoothness loss

또한 Godard의 두 논문(left-right consistency, Monodepth2)에서 제안한 안정적인 data augmentation 방법을 함께 적용한다.

4. Experiments

KITTI Scene Flow 벤치마크에서 평가하였다.

주요 결과:

  1. SSL loss 설계 → 3D point와 occlusion을 활용한 실험에서 성능 개선 확인
  2. Single decoder > Separate decoder: Single decoder가 훨씬 나은 성능을 보여 설계 선택의 타당성 입증
  3. Monocular Scene Flow: 동일한 multi-task monocular 세팅의 이전 모델 대비 우수한 성능. 단, Mono-SF보다는 성능이 낮으나 Mono-SF는 속도가 매우 느림 → fine-tuning으로 따라잡을 수 있음
  4. Monocular Depth: Monodepth2를 포함한 일부 전문 모델과의 비교 없이 유사 태스크 모델들 대비 약간 우수
  5. Optical Flow: 3D regularizer를 사용하므로 2D optical flow 성능은 다소 낮음 → regularizer는 목표 공간에서 적용될 때 가장 효과적

5. Conclusion & Limitation

Monocular 세팅에서 SSL 기반으로 scene flow, disparity, optical flow를 single decoder로 동시에 추정하는 방법을 제안하였다. Inverse projection 관점의 접근과 단일 디코더 구조가 학습 안정성과 성능 모두를 개선하였다.

한계로는, pose를 직접적으로 추정하지 않기 때문에 depth 성능이 pose estimation을 명시적으로 수행하는 방법 대비 다소 떨어지며, monocular 세팅에서의 real-time 성능 개선이 추가로 필요하다.