Motivation

  • 준지도 학습에서 문제에 따라, 중간단계 예측과 함께 사용 가능한 정보는 풍부하다. 기존의 방법에서는 이러한 아이디어를 활용할 수 없었다.
  • 논문은 메모리 네트워크를 통해, 가능한 모든 소수로부터 관련된 정보를 읽어 학습하고자 한다.
  • 과거 프레임과 마스크가 외부 메모리를 형성하고, 현재 프레임이 쿼리로서 메모리 속 마스크 정보를 사용하여 세그멘테이션을 수행함
  • 구체적으로 쿼리와 메모리는 피처 스페이스에서 매칭이 된다. (모든 space-time 픽셀 지점에서)
  • 이전 프레임에서 형상을 추출하고 전파하는 방식 외관 변화에 더 잘 대처하나, 오클루션이나 에러 드리프트의 러버스트가 낮을 수 있다.

  • 현재 프레임을 기준으로 삼는 방식 장단점이 위와 반대다.

  • 이전, 현재 프레임 모두 사용하는 방식
    두 프레임을 큐로 사용하기 때문에 이러한 방식은 정확도가 높고 시간이 빠르다. 왜냐하면 온라인 러닝 방식을 요구하지 않기 때문에 (온라인 러닝은 첫 번째 프레임의 학습이 필요)

Contribution

  • 과거 프레임의 메모리 네트워크 임베딩을 통해, 현재 프레임의 마스크를 추정

    1. 메모리 인코더로 과거 프레임마다 키와 밸류 임베딩을 계산
    2. 모두 컨캣하여 현재 프레임으로 넘긴다.
    3. 현재 프레임에서 키와 밸류를 계산한 후
    4. S-T Memory Read에서 과거와 가장 일치하는 특징으로 디코더 포워드

    키는 쿼리의 특징와 메모리 프레임과의 유사도를 계산하기 위한 텐서

    → 외관 변화에 러버스트한 모델을 위해 사용

    밸류는 마스크의 상세한 정보를 기억하기 위한 텐서

Experiments

생략

Conclusion

메모리 네트워크 구조상으로 보면 어텐션이랑 다를 바가 없어보이는데, 어텐션의 밸류 스트림이 메모리 역할을 하는 것 아닐까?