1. Motivation

Optical flow 추정은 연속 프레임 간의 픽셀 단위 움직임을 추정하는 핵심 컴퓨터 비전 과제이다. 기존의 방법들은 coarse-to-fine 방식 또는 cost volume 기반 접근을 사용하였으나, 큰 변위(large displacement)나 세밀한 구조물에서 정확도가 떨어지는 한계가 있었다. RAFT는 반복적(recurrent)인 업데이트 구조와 all-pairs correlation을 결합하여 이러한 한계를 극복한다.

  • FlowNet / PWC-Net: Coarse-to-fine warping 기반의 optical flow 추정. 큰 변위에는 강하지만 작은 구조물이나 fine detail을 놓치는 경향이 있다.
  • SpyNet: 경량화된 coarse-to-fine 구조.
  • Cost Volume 기반 방법들: 두 feature map 사이의 correlation을 명시적으로 계산. 탐색 범위(search radius)가 제한되는 단점이 있다.

3. Proposed Method

Feature Encoder and Context Encoder

두 입력 이미지로부터 각각 feature map을 추출한다. 추가로 첫 번째 이미지에서 context feature를 추출하여 flow 업데이트에 활용한다.

All-Pairs Correlation Volume

두 이미지의 feature map 사이에서 모든 픽셀 쌍에 대한 correlation을 계산하여 4D correlation volume을 구성한다. 이를 다중 해상도로 풀링하여 multi-scale correlation pyramid를 만든다.

기존 방법들이 제한된 탐색 반경 내에서만 correlation을 계산한 것과 달리, RAFT는 전체 이미지에 대해 correlation을 미리 계산해두므로 큰 변위도 놓치지 않는다.

Recurrent Update Operator (GRU)

ConvGRU 기반의 반복 업데이트 구조로 flow를 점진적으로 개선한다. 매 iteration에서 현재 flow 추정값으로 correlation volume을 lookup하고, context feature와 결합하여 flow의 residual을 예측한다.

$$\mathbf{f}_{k+1} = \mathbf{f}_k + \Delta\mathbf{f}_k$$

이 구조는 coarse-to-fine이 아닌 단일 고해상도에서 반복 refinement를 수행하므로, 세밀한 구조물에서의 정확도가 향상된다.

4. Experiments

  • Sintel (clean & final) 및 KITTI 벤치마크에서 당시 SOTA를 크게 상회하는 성능 달성
  • Iteration 수를 조절함으로써 속도-정확도 트레이드오프를 유연하게 제어 가능
  • Cross-dataset 일반화 능력도 기존 방법 대비 우수함을 확인

5. Conclusion & Limitation

RAFT는 all-pairs correlation volume과 recurrent GRU 기반 업데이트를 결합하여 optical flow 추정의 새로운 패러다임을 제시하였다. 이후 다수의 optical flow 및 scene flow 방법의 기반 아키텍처로 활용되었다.

한계로는, all-pairs correlation 계산이 메모리 집약적이며, 고해상도 이미지에서는 메모리 요구량이 크게 증가한다. 또한 inference 시 iteration 수에 비례하여 연산량이 늘어난다.