Motivation

RAFT-3D는 RAFT 베이스로 scene flow, 3D motion을 추정한다.
RAFT의 2D 옵티컬 플로우와는 달리, pixel-wise로 SE3 motion을 계산

Contribution

뎁스, 플로우 scene flow는 pixel-wise로 3D motion을 추정하는 태스크이다.
이는 path planning, collision avoidance, VR 등에 사용이 가능하다.

DL 기반으로 scene flow를 추정하는 방법들이 있지만, 디텍션이나 세그멘테이션 모델 기반이다.
이 방법들의 단점은 아래와 같다.

  1. 세그멘트 마스크가 필요하다. 이는 사전 학습된 모델에서 기인한다.
  2. 알려지지 않은 새로운 오브젝트 모션은 유추하지 못한다. Dense-SE3는 이터레티브하게 픽셀 마다 SE3 모션을 업데이트한다.

구조

구조는 RAFT와 크게 다르지 않다. 차이점이라면 depth 이미지가 같이 pair로 들어간다는 것에서 시작한다.

업데이트 방법

이 논문의 가장 큰 컨트리뷰션은 RAFT에서는 두 이미지로부터 feature map SE(3)을 백프롭하는 방법이다.
SE(3)의 corrleration tensor를 계산하고 등등은 동일하나, 다음의 한계를 극복하였다.

  • 원래 SE(3) 모션은 리 군에서의 표현을 따름 (예를 들어 SE(3)는 4x4 행렬 [R|t])
    이 매트릭스들의 원소를 직접 vetorization해서 임베딩하여 추정하는 것은 수치적으로 불안정하고 (singular value 이슈) 따라서 수렴성이 좋지 않고, 계산 비용이 큼

  • 리 대수는 리 군의 성질을 따르고, locally하게 euclidian space이므로 이를 활용해보는 가능성 Iterative하게 SE(3)모션을 추정하는 것은 다음의 과정을 가짐

    1. 조금 forward (리 군)
    2. 오차를 계산해서 리 대수 공간에서 backward (리 대수로 옮겨서)
    3. 보정된 파라미터로 다시 forward (리 군)
    4. 다시 오차를 계산하여 리 대수 공간에서 backward (리 대수로 옮겨서)
      SLAM 등에서 리 군에서 계산하다가 리 대수로 옮겨서 최적화하고 그런 과정들을 RAFT-3D의 SE(3) 모션을 Iterative하게 추정하는 것으로 간주할 수 있음

Experiments

생략

Conclusion

생략