[논문] Self-Supervised Learning with Geometric Constraints in Monocular Video: Connecting Flow, Depth and Camera

1. Motivation

단안(monocular) 비디오에서 depth, motion, optical flow, camera intrinsic matrix를 함께 학습하는 self-supervised 모델을 제안한다(GLNet). 핵심 기여는 다음 세 가지다:

Adaptive photometric loss 및 epipolar geometry loss 등 새로운 loss 제안
Camera intrinsic matrix를 예측할 수 있는 모델로 확장 → 캘리브레이션하지 않은 카메라에도 적용 가능
Online refinement 전략

기존 연구들의 한계:

전통적인 feature matching 기반 SfM 연구들은 텍스처에 대한 에러가 크고, occlusion을 다루지 못함 → 정확도 이슈
딥러닝 기반 방법들은 지도 학습으로 큰 성공을 거뒀지만, LiDAR 같은 비싼 장비로 GT를 얻어야 하는 문제가 있음
USL/SSL 기반 핵심 아이디어는 두 이미지 사이의 미분 가능한 warping layer로 photometric loss를 계산하는 것이지만, dynamic object 처리에 한계가 있음

3. Proposed Method

Adaptive Photometric Loss

Scene reconstruction에는 두 가지 경우가 있다:

Scene의 변화가 globally rigid transformation인 경우 → 카메라 모션에만 의존하는 static scene. 이때는 photometric loss만으로 완전히 계산 가능하다.
Scene에 움직이는 물체가 있는 경우 → static 가정의 photometric loss는 한계가 있고, optical flow warping이 필요하다.

이를 해결하기 위해 ego-motion에 의한 warping과 optical flow warping을 채널 레벨로 스택한다. 각 픽셀마다 두 가지 loss를 가지며, 두 warping 중 매칭이 더 잘 되는 쪽(loss가 작은 쪽)에 대해서만 gradient를 backward한다.

Multiview 3D Loss

각 프레임의 depth들은 동일한 scene structure에 대해 consistency가 있어야 한다. 타겟 프레임의 depth를 계산한 후, 타겟 depth를 motion과 함께 소스 프레임으로 옮기고, 소스 프레임 depth와의 차이를 L1 loss로 계산한다.

Regularization Loss

Forward-backward consistency loss를 적용하여 optical flow와 depth의 일관성을 강제한다.

테스트 시에도 새로운 비디오 데이터에 대해 온라인으로 모델을 추가 학습하는 전략이다.

4. Experiments

제안한 loss들과 online refinement 전략을 적용한 결과 성능이 향상됨을 보였다. 다만 abs rel 지표에 대해서만 주로 리포트하였으며, a1, a2, a3 등 더 중요한 지표에 대한 성능 개선은 명확하게 제시되지 않은 한계가 있다.

5. Conclusion & Limitation

GLNet은 adaptive photometric loss를 통해 static과 dynamic region을 픽셀 레벨에서 구분하여 처리하는 새로운 접근법을 제안한다. Intrinsic matrix 예측 기능으로 적용 범위를 확장하였다. 다만 consistency loss에서 scene flow에 대한 고려가 부족하며, ablation study에서 모든 지표에 대한 성능 개선을 보이지 않는 한계가 있다.

1. Motivation#

2. Related Work#

3. Proposed Method#

Adaptive Photometric Loss#

Multiview 3D Loss#

Regularization Loss#

Online Refinement#

4. Experiments#

5. Conclusion & Limitation#