[논문] Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Motivation

비디오에서 시간 차원은 공간 차원과 같은 방법으로 처리되었음.
비디오에서 물리적 위치가 t 프레임에 사영된 것과 t+k 프레임에 사영된 지점은 서로 무관할 수 있기 때문임.
Temporal correspondence는 이러한 다이나믹 장면을 학습하기 용이하게 설계되어야 함

RAFT의 옵티컬 플로우 추정은 두 프레임의 temporal corrrespondence 문제이다. RAFT의 correlation volume은 본질적으로 attention map와 같다.
Allan Jabri의 연구에서는 비디오 temporal correspondnce 문제를 contrastive random walk 문제로 정의하고 해결
위와는 다르게 trajectory attention을 통해 temporal correspondece 문제를 해결

Contribution

Trajectory Attention
Approximating attention
Traj Attention이 여전히 느려서, 근사시키는 방법을 제안. Q, K, V는 [D, N] 크기인데, i번째 idx를 뽑아서 [D] 크기의 col 벡터가 있다고 하자. 어텐션 연산의 효율적인 decomposition을 위해, 확률론적 수식을 기용한다. 0 ~ 1의 랜덤변수 A를 생각하자. 랜덤변수 Aij는 j 번째 키 벡터가 i 번째 q 벡터과 연산되는 값이다. 쿼리 벡터와 키 행렬 연산으로 얻은 벡터에 softmax를 씌운 것은, multinomial logistic function을 씌운 것으로 모델링할 수 있다. 동일하게 확률 벡터 pl = [D]으로 모델링하는 P = [D, R] 크기를 생각하자. latent variable을 이용해서 조건부 모델을 기술할 수 있다. 따라서 P(A) = softmax(Q.T, K)이고 P(U) = sfotmax(P.T, K)이다. 그런데 P(A|U)가 intractable 하니까, 조건부 확률 P(A|U)를 유사한 parametric model로 근사할 수 있다. P(A|U) ~ S(Q.T, P) 따라서 P~(A)V = S(Q.T, P) (S(P.T, K) V) 으로 근사가 가능
장점 1. 위 식의 근사법은 O(N^2)를 O(N)으로 줄일 수 있음
장점 2. Prototype Selection이 무슨 말인지 이해 못했음
장점 3. Orthoformer algorithm, 유사한 이전 연구는 Nystrom decomposition을 이용한 attention 계산 연구가 있다.
이 방법은 Psuedo-inverse 방법을 사용하는데, 계산량과 메모리 요구량이 우리 모델보다 많다.

Experiments

Trajectory attention에서 Cubic 스타일 토크나이징과 Separate ST Pos, Encoding이 성능이 더 좋음
제안한 근사 방법이 이전의 연구와 정확도는 비슷하지만, 메모리 요구가 적음

Conclusion

막연하게 temporal attention을 주는 것이 아니라, trajectory같이 inductive bias를 활용하는 것이 핵심
왜 traejctory같은 성질이 inductive bias일까? 비디오의 고유한 성질이기 때문임.
attention에서 matrix decomposition을 활용하는 것도 볼만함

Motivation#

Related Works#

Contribution#

Experiments#

Conclusion#

Motivation

Related Works

Contribution

Experiments

Conclusion