Motiviation
3D scene flow는 라이다나 스테레오 환경에서만 real scale을 알 수 있음, 모노큘라 환경에서는 알지 못함 real scale을 알기 위해서는 GT 뎁스나 GT point cloud를 알아야 했음, 이 논문은 2장의 모노큘라 시퀀스로부터 real scale scene flow를 알아내기 위함임
Related Works
논문 갈래 정리: PointNet → PointNet++ // FlowNet → PWC-Net → FlowNet3D → PointPWCNet
- 포인트 클라우드 기반은 라이다가 필요 → 라이다는 너무 비쌈
- 스테레오를 이용한 방법 → 카메라칸 캘리가 필요 → 굳이?
- 모노큘라를 이용한 방법 → scale ambuiguity가 생김 → real scale을 복원하는 방법이 필요
모노큘라의 2D Optical flow에서 real scale 3D scene flow를 얻으려면, 리얼 스케일 뎁스 맵으로부터 리얼 스케일 3D 좌표를 얻어야 함. 최근의 SfM 모델들은 성공적으로 monocular와 optical flow의 추정을 하였지만, SfM 기반이기 때문에 scale ambuiguity가 발생
Contribution
- Cartessian lattice ↔ Permutohedral lattice
이 논문에서는 카테시안 좌표계를 사용하지 않고 카테시안 좌표계로부터 3D 포인트클라우드를 얻은 다음에 이를 lattice proejction을 통해서 푼다. 왜 그렇게 했을까? 사실 잘 모르겠음… 저 좌표계로 임베딩해서 푸는게 어떤 효과가 있을까? D-dimensional 가우시안 필터링이 다면체 좌표계가 카테시안 좌표계에서보다 더 효과가 있다고 언급하는데 왜 필요한건지 모르겠음. 로스는 추정한 뎁스와 GT Depth의 지도 학습, Sceneflow와 GT Sceneflow의 지도 학습
Experiments
메트릭에 관한 이야기: d1, d2, f1, sf 메트릭은 다음에 적합
- 2D optical flow를 평가하거나 or Normzalized sceneflow를 평가하거나, 따라서 scale ambiguity 문제가 있음. 이 논문은 대신에 real-scale 3D sceneflow를 평가한 PontPWCNet이나 Flowned3D의 방법을 사용. 이 논문이 모노큘라 → real scale을 추정하는 첫 시도이기 때문에, 다른 연구 작업들의 결과물을 real scale로 복원하는 방법이 필요하다. (Depth, Sceneflow GT를 이용해서)
Conclusion
- 일단 지도학습이라서 잘 되는 것 같은데? Pose를 이용한 SSL 기반은 여전히 안했음
- 왜 다면 격자 모델이 좋은지 설명이 부족한 듯?