Motivation
비디오 압축 코덱 정보만으로 세그멘테이션 추론을 어떻게 빨리 할 수 있을까?
Related Works
- 기존 VOS 태스크들은 정확하지만 속도가 느림
- 효율적인 방법들이 제시되었으나, 정확도 간의 트레이드오프가 있음
- 옵티컬 플로우 기반은 비용이 너무 비쌈, 그리고 two-view 밖에 못 봄
Contribution
키프레임에서 다른 프레임으로 bidirectional, multi-hop 방식으로 세그멘테이션 마스크를 전달하여 워핑하는 네트워크 디자인
소프트 프로파게이션 모듈
부정확하고 블록 단위의 모션 벡터를 입력으로 받아서, 노이즈를 없앤 후 정확한 와핑을 할 수 있게 함
→ 모션 벡터 와핑 모듈을 제안- 네트워크로 추출한 로우 피처와 세그멘테이션 맵을 모션 필드를 이용해서 백워드 와핑을 연산
- 와핑한 피처맵, 마스크 그리고 논 키프레임의 피처를 모두 컨캣하여 Noise Suppression 모듈에 넣어줌
- 이때 와핑한 피처와 논 키프레임의 피처 간의 유사도를 계산하여, 중요한 부분만 넘기고 아닌 부분은 무시함으로써 노이즈를 제거하는 효과를 가져옴
마스크 교정 모듈: 모션 residual에 기반해서 마스크 오차나 아티팩트를 교정함
기존의 VOS 네트워크에 붙여서 쓸 수 있다는 플렉서블함이 장점
Experiments
생략
Conclusion
생략