Motivation
효율적으로 비디오 표현 학습을 하는 방법을 고민
Related Work
이전 연구들은 비디오 프레임을 프로세싱하기 전에 JPEG 같은 형태로 디코딩하여 저장하고 representation 학습을 하였음. 이것은 스토리지를 많이 요구하고, 대규모 트레이닝에 비효율적임. Decoded frame없이 학습할 수 있었지만, supervised 기반이었지, self-supervised는 관심이 덜했음
Contribution
압측된 비디오 포맷에서 직접 비디오 표현 학습을 한다. 압축된 비디오는 두 가지 고유한 특성이 있음, 일단 GOP란? MPEG 포맷을 위해 영상 프레임의 덩어리를 가리킴
왜 압축된 비디오가 유리할까?
GOP는 몇 장의 이미지와 (I-frame), residual, less motion information이
있는 프레임도 포함한다. 프레임 레벨보다 GOP 레벨에서 더 consistency가 있는 모션 정보를 가져올 수 있다. 따라서 멀티모달 표현 학습을 할 수도 있다. (이미지, 모션 벡터, 잔차) 이를 이용해서 novel pretext task를 수행할 수 있음
- 논문의 모델은 가장 역동적인 영역을 예측할 수 있음
- Temporal transformation 후에 I, P 프레임 사이에서 correspondence type을 예측할 수 있음
- 이러한 문제를 풀려면, 가장 중요한 이동 물체를 찾고, I, P 프레임 사이에서 motion correspondence를 해야함. 이는 모델이 compresssed video로부터 discriminative representation을 배울 수 있도록 함
Experiments
생략
Conclusion
생략