1. Motivation

Depth, Optical Flow, Motion 추정, Video Segmentation 문제는 사실 기하적 제약 조건 하에 서로 커플링되어 있다는 인사이트에서 출발한다. 각각의 문제를 독립적으로 푸는 것이 아니라, 하나의 솔루션이 다른 솔루션들을 더 잘 하게 만들 수 있는 공동 학습(joint learning) 전략이 필요하다.

이 논문은 각 모델들이 서로 **경쟁적(competitive)이면서도 협력적(collaborative)**으로 작동하는 사이클릭 학습 프레임워크(Competitive Collaboration, CC)를 제안한다.

기존 연구들의 한계점은 다음과 같다.

  • Depth + Motion 커플링 학습: Static scene 가정에서만 성립하며, static scene으로 설명할 수 없는 영역은 explainability mask를 통해 무시한다.
  • Optical Flow 학습: Occlusion을 다루기 힘들고 depth 성능이 나쁘다.

공통적인 문제는 독립적으로 움직이는 물체(사람, 자동차 등)를 세그멘트하지 않는다는 점이다. 레이블이 없는 데이터셋은 모델 가정에 맞지 않을 수 있으며, 이는 훈련에 나쁜 영향을 준다. 예를 들어 depth, motion 네트워크를 위한 데이터는 독립적으로 움직이는 물체를 포함하지 않아야 하며, optical flow를 위한 데이터셋은 occlusion을 포함하지 않아야 한다.

3. Proposed Method

Competitive Collaboration Framework

각 모델들이 서로 경쟁적이고 협력할 수 있는 방법으로 유도한다.

  • Static Scene Reconstructor: Depth + Motion으로부터 static scene을 구성
  • Dynamic Scene Reconstructor: Optical flow로부터 dynamic scene을 구성

두 reconstructor가 static region과 dynamic region을 경쟁적으로 구성하도록 학습하며, 이 경쟁은 **Motion Segmentation Network(모더레이터)**를 통해 조율된다. 모더레이터는 공정한 경쟁을 유지하기 위해 static region과 dynamic region을 구분하는 역할을 한다.

Loss 구성

  1. Depth, Motion으로부터의 static scene reconstructor와 optical flow로부터의 dynamic scene reconstructor가 각각 존재한다.
  2. Motion Segmentation 모델을 통해 0~1 사이의 mask를 획득하고, 이를 각 reconstructor의 출력에 element-wise product로 적용한다.
  3. 전체 모델은 Depth, Motion, Optical Flow, Segmentation의 네 개 모델로 구성된다.

4. Experiments

Competitive Collaboration을 적용한 방법이 더 뛰어난 depth 성능을 보임을 실험으로 확인하였다. 또한 Flow Network의 백본 구성(특히 PWC-Net 사용 시)에 따라 depth 성능이 달라지는 것을 ablation study로 보였다.

다만 depth 지표에 한정된 평가로, optical flow에 대한 성능 평가는 상대적으로 빈약하다.

5. Conclusion & Limitation

단순히 모든 네트워크의 출력 loss를 하나로 묶어서 학습하는 것이 아니라, 장면 영역이 static인지 dynamic인지에 대한 균형적인 고려가 loss에 반영되어야 함을 보여준다. 이 논문은 dynamic scene을 포함한 self-supervised 학습의 핵심 과제를 명확히 제시하고, 경쟁-협력 프레임워크라는 새로운 접근법을 제안한다.