1. Motivation
Monocular depth estimation에서 정확한 뎁스를 추정하기 위한 새로운 방법으로 웨이블릿 분해(wavelet decomposition)를 기반으로 한 접근법을 제안한다.
비디오나 장면 이미지는 전체를 지배하는 flat한 저주파수 영역과, 빠르게 변하는 고주파수 영역(엣지, 세부 구조)으로 구성된다. 특히 뎁스 추정에서 중요한 것은 depth edge의 gradient 부분인데, 이 고주파수 영역은 굉장히 sparse하다. 이 sparse한 엣지 부분에 집중하는 계산이 가능하다면 더 효율적이고 정확한 뎁스 추정이 가능하다.
2. Related Work
기존의 dense convolution 기반 depth estimation은 비효율적이고 연산 비용이 크다. 효율적인 CNN 연산을 위한 방법들(Depthwise Separable, Inverted Residual, Pointwise Group Convolution 등)이 개발되어 왔지만, 뎁스 추정에서 wavelet을 활용한 연구는 제한적이었다.
이전에 wavelet을 활용한 stereo matching 연구가 있었으나 GT가 필요했고, disparity 추정에 적용한 연구도 있었지만 성능이 충분히 좋지 않았다.
3. Proposed Method
WaveletMonodepth 구조를 제안한다. 기존 방식은 이미지 → 인코더 → 디코더 → 뎁스의 형태로 포워드되지만, 이 논문은 디코더 출력의 depth feature map에 wavelet decomposition을 적용한다.
핵심 아이디어: 다중 스케일 Wavelet 분해
가장 작은 스케일의 피처맵을 1개의 LPF approximation feature map과 3개의 HPF edge feature map으로 분리 (2D Wavelet Decomposition)
위의 웨이블릿 피처맵 4개를 IDWT(Inverse Discrete Wavelet Transform)하여 뎁스로 복원하고, 두 번째로 작은 스케일의 피처맵은 3개의 HPF feature map으로만 분리하여 두 출력을 묶는다.
묶인 웨이블릿 feature map을 다시 IDWT하여 뎁스로 복원한다. 이때 LPF 영역은 더 작은 스케일의 정보를, HPF 영역은 현재 스케일의 엣지 정보를 담는다.
위 과정을 반복하여 다중 스케일에서 계층적으로 depth를 복원한다.
Sparsity 활용
Threshold를 적용하여 sparsity tensor를 생성한다. 이를 통해 고주파수 영역 중 의미 있는 엣지만 선택적으로 활용한다. 또한 웨이블릿 계수를 GT 없이도 학습 가능하도록 설계하였다.
4. Experiments
Density 0.1 (즉, 90%를 0으로 masking하고 10%의 위치만 사용)을 사용하더라도, density=1.0 대비 loss가 단 1.4%만 낮았다. 이는 고주파수 성분의 sparse한 활용만으로도 충분한 뎁스 복원이 가능함을 보여준다.
5. Conclusion & Limitation
Wavelet decomposition을 통해 뎁스 추정에서 저주파/고주파 정보를 명시적으로 분리하고, sparse한 엣지 정보에 집중함으로써 효율적이고 정확한 뎁스 추정이 가능함을 보였다. GT 없이도 웨이블릿 계수 학습이 가능하다는 점도 실용적인 장점이다.
다만 threshold 설정에 따른 민감도와, 실시간 처리 성능에 대한 추가 검증이 필요하다.