1. Motivation

Self-supervised monocular depth estimation은 scale ambiguity 문제로 인해 relative depth만을 추정할 수 있다. 자율주행 응용에서는 실제 미터 단위의 absolute scale이 필요하다. 이 논문은 Monodepth2를 베이스라인으로, 추가적인 supervision 없이 relative depth에서 absolute depth로 복원하는 방법을 제안한다.

  • Monodepth2: SSL 기반 monocular depth estimation의 강력한 베이스라인이나, up-to-scale 결과를 출력한다.
  • Scale 복원 방법들: 일부 방법은 카메라 높이나 IMU 정보 등의 추가 센서를 활용하지만, 이는 추가 비용을 요구한다.
  • 이 논문은 이미지에서 자동으로 ground plane을 감지하여 카메라 높이를 추정하는 방식으로 scale factor를 계산한다.

3. Proposed Method

Ground Plane 감지를 통한 Scale 복원

핵심 아이디어는 “예측된 depth map에서 ground plane에 해당하는 픽셀들을 찾고, 이들로부터 카메라 높이를 추정하여 scale factor를 계산한다"는 것이다.

구체적인 절차:

  1. 법선 벡터 계산: 한 픽셀과 주변 8개 픽셀을 4개의 그룹(각 그룹은 2개의 이웃 픽셀)으로 묶는다. 각 그룹에서 센터 픽셀과 이웃 픽셀 두 벡터의 외적 평균을 계산하면 해당 픽셀의 법선 벡터를 얻을 수 있다. 4개 그룹의 외적을 평균 내면 해당 픽셀과 주변 픽셀의 평균 법선 벡터가 된다 (완전히 정확하지는 않지만 땅을 향하는 근사값으로 활용).

  2. Ground Point (GP) 필터링: GT 방향 normalized vector를 [0, 1, 0]으로 두고 arc-cosine 유사도를 계산한다. 각도가 0이면 ground, 90도이면 수직면에 해당한다. 스코어 $S$가 $S_{max}$보다 작고 투영값 $P$가 0보다 큰 두 조건을 동시에 만족하는 픽셀을 Ground Point(GP)로 선정한다.

  3. 카메라 높이 추정: GP로 선택된 픽셀들의 3D 포인트 클라우드와 해당 픽셀의 법선 벡터 $N(P)$의 내적으로 카메라 높이를 추정한다.

  4. Scale Factor 계산 및 적용: 추정한 카메라 높이와 GT 카메라 높이를 이용해 scale factor를 계산한다. 추정한 relative depth에 scale factor를 곱하여 absolute scale로 변환한다. 단, training 자체를 absolute scale에서 수행하지는 않는다 — 추론(inference) 후처리 단계에서 scale을 적용한다.

4. Experiments

KITTI 데이터셋에서 카메라 높이 기반 scale 복원의 유효성을 검증하였다. Absolute depth metric(예: absolute relative error)으로 평가하여 scale factor 적용 전후의 성능을 비교한다.

5. Conclusion & Limitation

Ground plane 픽셀을 자동으로 감지하고 카메라 높이를 추정함으로써, 별도의 센서 없이 SSL monocular depth를 absolute scale로 변환하는 방법을 제안하였다.

한계로는, ground plane이 명확히 보이지 않는 환경(실내, 급경사 도로 등)에서는 GP 필터링이 불안정할 수 있다. 또한 training 자체에 absolute scale이 반영되지 않으므로 end-to-end 최적화가 이루어지지 않는다는 점이 아쉽다.