Motivation

비디오 압축 코덱 정보만으로 세그멘테이션 추론을 어떻게 빨리 할 수 있을까?

  • 기존 VOS 태스크들은 정확하지만 속도가 느림
  • 효율적인 방법들이 제시되었으나, 정확도 간의 트레이드오프가 있음
  • 옵티컬 플로우 기반은 비용이 너무 비쌈, 그리고 two-view 밖에 못 봄

Contribution

  • 키프레임에서 다른 프레임으로 bidirectional, multi-hop 방식으로 세그멘테이션 마스크를 전달하여 워핑하는 네트워크 디자인

  • 소프트 프로파게이션 모듈
    부정확하고 블록 단위의 모션 벡터를 입력으로 받아서, 노이즈를 없앤 후 정확한 와핑을 할 수 있게 함
    → 모션 벡터 와핑 모듈을 제안

    1. 네트워크로 추출한 로우 피처와 세그멘테이션 맵을 모션 필드를 이용해서 백워드 와핑을 연산
    2. 와핑한 피처맵, 마스크 그리고 논 키프레임의 피처를 모두 컨캣하여 Noise Suppression 모듈에 넣어줌
    3. 이때 와핑한 피처와 논 키프레임의 피처 간의 유사도를 계산하여, 중요한 부분만 넘기고 아닌 부분은 무시함으로써 노이즈를 제거하는 효과를 가져옴
  • 마스크 교정 모듈: 모션 residual에 기반해서 마스크 오차나 아티팩트를 교정함

  • 기존의 VOS 네트워크에 붙여서 쓸 수 있다는 플렉서블함이 장점

Experiments

생략

Conclusion

생략