[논문] Video Object Segmentation using Space-Time Memory Networks

Table of Contents

Motivation

준지도 학습에서 문제에 따라, 중간단계 예측과 함께 사용 가능한 정보는 풍부하다. 기존의 방법에서는 이러한 아이디어를 활용할 수 없었다.
논문은 메모리 네트워크를 통해, 가능한 모든 소수로부터 관련된 정보를 읽어 학습하고자 한다.
과거 프레임과 마스크가 외부 메모리를 형성하고, 현재 프레임이 쿼리로서 메모리 속 마스크 정보를 사용하여 세그멘테이션을 수행함
구체적으로 쿼리와 메모리는 피처 스페이스에서 매칭이 된다. (모든 space-time 픽셀 지점에서)

이전 프레임에서 형상을 추출하고 전파하는 방식 외관 변화에 더 잘 대처하나, 오클루션이나 에러 드리프트의 러버스트가 낮을 수 있다.
현재 프레임을 기준으로 삼는 방식 장단점이 위와 반대다.
이전, 현재 프레임 모두 사용하는 방식
두 프레임을 큐로 사용하기 때문에 이러한 방식은 정확도가 높고 시간이 빠르다. 왜냐하면 온라인 러닝 방식을 요구하지 않기 때문에 (온라인 러닝은 첫 번째 프레임의 학습이 필요)

Contribution

과거 프레임의 메모리 네트워크 임베딩을 통해, 현재 프레임의 마스크를 추정
1. 메모리 인코더로 과거 프레임마다 키와 밸류 임베딩을 계산
2. 모두 컨캣하여 현재 프레임으로 넘긴다.
3. 현재 프레임에서 키와 밸류를 계산한 후
4. S-T Memory Read에서 과거와 가장 일치하는 특징으로 디코더 포워드
키는 쿼리의 특징와 메모리 프레임과의 유사도를 계산하기 위한 텐서
→ 외관 변화에 러버스트한 모델을 위해 사용
밸류는 마스크의 상세한 정보를 기억하기 위한 텐서

Experiments

생략

Conclusion

메모리 네트워크 구조상으로 보면 어텐션이랑 다를 바가 없어보이는데, 어텐션의 밸류 스트림이 메모리 역할을 하는 것 아닐까?