1. Motivation

Scene flow 추정을 위한 self-supervised 학습에서는 어떤 loss 함수를 사용할 것인가가 핵심 문제이다. GT annotation을 얻기 어렵기 때문에 supervised learning의 대안이 필요하며, 이 논문은 가능한 여러 loss 함수의 장단점을 분석하고 이들을 조합하는 방법을 제안한다.

Supervised Loss

GT scene flow를 직접 annotation하는 것은 매우 어렵고 비용이 많이 든다. 실제 환경에서 dense GT를 취득하는 것은 현실적으로 불가능에 가깝다.

Nearest Neighbor (NN) Loss

시간 t의 포인트 클라우드와 t+1의 포인트 클라우드에서 각 포인트의 nearest neighbor를 찾아서, 두 포인트 사이의 거리를 0으로 만드는 flow를 추정하는 방식이다.

단점:

  1. t → t+1 flow에서 NN이 가리키는 포인트가 실제 대응되는 포인트가 아닐 수 있다 (not correspondence).
  2. t의 모든 포인트가 t+1의 하나의 포인트를 가리키는 degeneracy 문제가 발생할 수 있다.

Cycle Consistency (CC) Loss

Forward flow와 backward flow를 이용해 일관성을 제약하는 방식이다.

  • Forward flow: $x \to y$, $x’ = x + d$이고 $y \approx x’$이 되도록 $f(x, y)$를 추정
  • Backward flow: $x’ \to x$, $x’’ = x’ + d’$이고 $x’’ \approx x$이 되도록 $f(x’, x)$를 추정
  • 최종적으로 $x’’$와 $x$의 loss를 계산

단점:

  1. SSL로 쓰기에 학습이 매우 불안정하다.
  2. $x’$가 구조적으로 불안정할 수 있다.

이 문제의 해결책으로 $x’ = \alpha x’ + (1-\alpha)y$ 형태로 $y$의 값을 보정하는 것이 필요하다.

3. Proposed Method

NN Loss와 Cycle Consistency Loss를 적절히 혼합하면 학습이 안정적으로 이루어진다는 것이 이 논문의 핵심 주장이다. 두 loss를 단독으로 사용할 때의 단점을 서로 보완하는 방식으로 결합한다.

$$\mathcal{L} = \lambda_{NN} \mathcal{L}{NN} + \lambda{CC} \mathcal{L}_{CC}$$

4. Experiments

NN Loss 단독, CC Loss 단독, 그리고 두 loss를 혼합했을 때의 성능을 비교하여, 두 loss의 조합이 가장 안정적이고 높은 성능을 보임을 실험적으로 검증한다.

5. Conclusion & Limitation

Self-supervised scene flow 추정에서 NN Loss와 Cycle Consistency Loss를 혼합하면 학습 안정성과 성능이 모두 향상된다. 각 loss의 단점을 상호 보완하는 방식으로 SSL 학습이 가능함을 보인다.

다만 CC Loss의 불안정성을 완전히 제거하기 위해 보정 계수가 필요하며, 최적의 $\alpha$와 loss weight 설정은 추가 분석이 필요하다.