1. Motivation
기존의 많은 scene flow 연구들은 3D 모션의 static component와 dynamic component를 구분하지 않고 픽셀 레벨 translation vector를 직접 추론한다. 그러나 실제 장면에서의 3D 모션은 두 가지 성분으로 분리할 수 있다:
- Ego-motion = rigid motion = static motion: 관측자(카메라)의 이동으로 인한 모션
- Object-motion = non-rigid motion = dynamic motion: 장면 내 물체 자체의 움직임
이 논문은 두 성분을 E2E로 분리하여 추론하고, 포인트 클라우드 시퀀스의 temporal consistency 속성을 self-supervised 학습에 활용하는 프레임워크를 제안한다.
2. Related Work
- FlowNet3D: 3D scene flow를 E2E로 추정하지만, ego-motion과 object-motion을 분리하지 않음
- PointNet++: 포인트 클라우드 feature 추출의 기반 아키텍처
- Cycle Consistency 기반 SSL: 자기지도 학습에서 forward-backward consistency를 활용하는 방법들
3. Proposed Method
3D Motion Model
전체 scene flow $d$는 ego-motion과 non-rigid motion의 합으로 분해된다:
$$d = d_{\text{non-rigid}} + (R_{\text{rel}} - I_{3\times3})x + t_{\text{rel}}$$
- 우변의 두 번째 항: relative rotation $R_{\text{rel}}$과 translation $t_{\text{rel}}$로 구성된 ego-motion 성분
- 첫 번째 항: non-rigid motion 성분 (물체의 자체 움직임)
네트워크 구조
- Relative Pose Regressor: 입력 포인트 클라우드 쌍으로부터 relative pose를 추정
- Iterative Pose Refinement: Recurrent fashion으로 포즈를 반복적으로 개선. 하이퍼파라미터 K번(논문에서는 K=5) iteration을 수행하며, 초기 포즈는 identity matrix $dT_0 = I$에서 시작하여 각 step에서 미세한 변화량 $dT_i$를 계산한다. 전체 최종 포즈는 $dT$들의 matrix multiplication으로 얻는다.
- Non-Rigid Network: Relative pose와 t 프레임의 포인트 클라우드를 입력으로 받아 non-rigid flow를 출력
- Scene Flow 합산: 추정한 non-rigid flow와 relative pose를 결합하여 total scene flow를 계산
Loss 함수
Total Scene Flow Loss: 예측한 total scene flow와 GT scene flow의 L2 loss
Non-Rigid Flow Loss: GT non-rigid flow와 예측의 L2 loss
Rotation & Translation Loss: 각각 GT와 L2 loss로 계산 (rotation에 L2 loss를 그대로 적용하는 것이 완전히 적절한지는 논의 여지가 있음 — rotation은 linear vector space가 아님)
Forward-Backward Loss: $x_1$에서 scene flow를 더하여 $x_2$를 추정했을 때의 warping loss
Nearest Neighbour Loss:
- 추정한 $\hat{x}2$와 실제 $X_2$에서 가장 가까운 점 $x{nn}$을 찾음
- $x_{nn}$에 inverse flow를 더했을 때 $x_1$ 예측 포인트가 계산되며, 만약 $\hat{x}2 = x{nn}$이면 추정 $x_1$ = 실제 $x_1$이어야 하므로, $\hat{x}2$와 $x{nn}$ 사이의 L2 loss를 최소화
4. Experiments
FlyingThings3D 및 KITTI 데이터셋에서 scene flow 추정 성능을 평가하였다. Ego-motion과 non-rigid motion을 분리하여 추정하는 방식이 전체 scene flow를 한 번에 추정하는 방식 대비 우수한 성능을 보임을 확인한다.
5. Conclusion & Limitation
Ego-motion과 non-rigid motion을 명시적으로 분리하여 E2E로 학습하는 self-supervised scene flow 추정 프레임워크를 제안하였다. Temporal consistency를 SSL 신호로 활용하는 점이 핵심 기여이다.
한계로는, rotation loss에 L2 loss를 직접 적용하는 것이 rotation의 geometry를 충분히 반영하지 못할 수 있다. Geodesic loss나 quaternion 기반 loss가 더 적합할 수 있다. 또한 supervised loss가 일부 포함되어 있어 완전한 self-supervised 방법은 아니다.