Motivation
기존의 로컬 피처 디텍션은 싱글 이미지에서 이루어짐 → 에러가 누적되고 다운스트림 태스크에 악영향
Related Works
- 이전 논문들은 전통적인 방법이든 CNN 기반 방법이든, 싱글 뷰 이미지에서 로컬 피처 디텍션이 이루어졌다.
- 피처 매칭 단계에서 멀티 뷰를 고려하는 논문은 있지만, 저자가 아는 한, 더 정확한 키포인트 디텍팅을 위해 멀티뷰를 활용하는 사례는 없었다.
Contribution
- 키포인트를 구성하는 그래프의 모든 엣지에 대해서 멀티뷰 refinement를 수행한다
- 이전 연구와 비슷하게 샴-네트워크와 코릴레이션 방법을 선택
- 파이널 플로우는 CNN, FCN을 통해 예측되어진다.
CNN을 통해 얻은 C, H, W텐서는 C-dim의 descriptor로 해석할 수 있다. 이것을 가지고 H W H W 코릴레이션 텐서를 계산한다. (그 전에 L2 normalization 함) 코릴레이션 레이어를 포스트 프로세싱하여 로컬 피처를 aggregation하고 나서, FCN을 통해 final outputs d(u→v)를 계산한다. 이것을 어디에 활용할까? 그래프 기반 방법에 단순히 displacement를 더하는 것보다 유리하다고 하는데, 어떤 이유에서인지는 잘 모르겠다.
Experiments
생략
Conclusion
멀티 뷰를 모노큘라 환경에서도 가능할까?