[논문] PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume

1. Motivation

FlowNet, FlowNet 2.0은 정확도는 높지만 모델이 지나치게 크고 느리다는 문제가 있다. PWC-Net은 이를 해결하기 위해 FlowNet 2.0 대비 17배 더 작고, 학습이 용이하며, 초당 프레임 처리 속도가 더 빠른 네트워크를 설계한다.

핵심 아이디어는 이름 그대로 세 가지 원리의 조합이다: Pyramid(피라미드 피처), Warping(이미지 와핑), Cost Volume(코스트 볼륨).

전통적인 Optical Flow 방법들(예: SIFT Flow, EpicFlow)은 coarse-to-fine 방식의 image pyramid를 활용하였다. 딥러닝 기반 방법인 FlowNet 시리즈는 end-to-end 학습을 가능하게 하였으나 대용량 모델이라는 단점이 있다. PWC-Net은 전통적 방법의 원리를 딥러닝 아키텍처에 통합하여 경량화와 정확도를 동시에 달성한다.

3. Proposed Method

Pyramid

두 이미지를 입력으로 받아, L 레벨의 피처 표현을 위한 피라미드 CNN을 통과시킨다. 논문에서는 6단계의 피라미드를 사용하며, 각 레벨의 채널 수는 [16, 32, 64, 96, 128, 196]으로 구성된다. 이를 통해 각 이미지에 대해 6개의 피처맵 표현을 획득한다.

Warping

이미지 2에서 얻은 L-1 레벨의 피처맵을 x2 Upsampling한 뒤, 이전 레벨에서 추정한 flow로 warping하여 이미지 1의 피처맵과 정렬한다. Warping 연산은 bilinear interpolation으로 수행되어 미분 가능하다.

Cost Volume

이미지 1의 피처와 이미지 2로부터 warping된 피처 간의 correlation을 계산한다. Cost volume의 각 entry는 이미지 1의 픽셀 위치에서 이미지 2 피처와의 채널-wise 내적(dot product)을 나타낸다. 모든 위치가 아닌, 일정 L1 거리 이내의 패치 영역에 대해서만 계산하여 효율성을 높인다.

Context Network

전통적인 optical flow 후처리에서 context information을 활용하는 방식에서 영감을 받아, 피라미드 CNN 구조 뒤에 서브네트워크를 추가한다. Receptive field가 큰 dilated convolution을 적용하며, 7개의 레이어로 구성되고 각 레이어의 dilation constant는 1, 2, 4, 8, 16, 1, 1이다.

4. Experiments

Sintel, KITTI 등 표준 벤치마크에서 평가하였다. PWC-Net은 FlowNet 2.0과 유사하거나 더 나은 정확도를 달성하면서, 모델 크기는 약 17배 작고 속도는 더 빠르다. 경량화와 성능 사이의 뛰어난 균형을 보여준다.

5. Conclusion & Limitation

PWC-Net은 Pyramid, Warping, Cost Volume 세 가지 원리를 통합하여 경량화된 optical flow 네트워크를 제안한다. 전통적 방법의 원리와 딥러닝의 장점을 효과적으로 결합하였다. 이후 many scene flow 관련 연구들이 PWC-Net을 백본으로 채택할 만큼 영향력 있는 방법이다.

1. Motivation#

2. Related Work#

3. Proposed Method#

Pyramid#

Warping#

Cost Volume#

Context Network#

4. Experiments#

5. Conclusion & Limitation#