Motivation

비디오에서 시간 차원은 공간 차원과 같은 방법으로 처리되었음.
비디오에서 물리적 위치가 t 프레임에 사영된 것과 t+k 프레임에 사영된 지점은 서로 무관할 수 있기 때문임.
Temporal correspondence는 이러한 다이나믹 장면을 학습하기 용이하게 설계되어야 함

  • RAFT의 옵티컬 플로우 추정은 두 프레임의 temporal corrrespondence 문제이다. RAFT의 correlation volume은 본질적으로 attention map와 같다.
  • Allan Jabri의 연구에서는 비디오 temporal correspondnce 문제를 contrastive random walk 문제로 정의하고 해결
  • 위와는 다르게 trajectory attention을 통해 temporal correspondece 문제를 해결

Contribution

  • Trajectory Attention

  • Approximating attention

    Traj Attention이 여전히 느려서, 근사시키는 방법을 제안. Q, K, V는 [D, N] 크기인데, i번째 idx를 뽑아서 [D] 크기의 col 벡터가 있다고 하자. 어텐션 연산의 효율적인 decomposition을 위해, 확률론적 수식을 기용한다. 0 ~ 1의 랜덤변수 A를 생각하자. 랜덤변수 Aij는 j 번째 키 벡터가 i 번째 q 벡터과 연산되는 값이다. 쿼리 벡터와 키 행렬 연산으로 얻은 벡터에 softmax를 씌운 것은, multinomial logistic function을 씌운 것으로 모델링할 수 있다. 동일하게 확률 벡터 pl = [D]으로 모델링하는 P = [D, R] 크기를 생각하자. latent variable을 이용해서 조건부 모델을 기술할 수 있다. 따라서 P(A) = softmax(Q.T, K)이고 P(U) = sfotmax(P.T, K)이다. 그런데 P(A|U)가 intractable 하니까, 조건부 확률 P(A|U)를 유사한 parametric model로 근사할 수 있다. P(A|U) ~ S(Q.T, P) 따라서 P~(A)V = S(Q.T, P) (S(P.T, K) V) 으로 근사가 가능

    장점 1. 위 식의 근사법은 O(N^2)를 O(N)으로 줄일 수 있음

    장점 2. Prototype Selection이 무슨 말인지 이해 못했음

    장점 3. Orthoformer algorithm, 유사한 이전 연구는 Nystrom decomposition을 이용한 attention 계산 연구가 있다.

    이 방법은 Psuedo-inverse 방법을 사용하는데, 계산량과 메모리 요구량이 우리 모델보다 많다.

Experiments

  • Trajectory attention에서 Cubic 스타일 토크나이징과 Separate ST Pos, Encoding이 성능이 더 좋음
  • 제안한 근사 방법이 이전의 연구와 정확도는 비슷하지만, 메모리 요구가 적음

Conclusion

  • 막연하게 temporal attention을 주는 것이 아니라, trajectory같이 inductive bias를 활용하는 것이 핵심
    왜 traejctory같은 성질이 inductive bias일까? 비디오의 고유한 성질이기 때문임.

  • attention에서 matrix decomposition을 활용하는 것도 볼만함