[논문]Self-Supervised Learning of Compressed Video Representation
Motivation 효율적으로 비디오 표현 학습을 하는 방법을 고민 Related Work 이전 연구들은 비디오 프레임을 프로세싱하기 전에 JPEG 같은 형태로 디코딩하여 저장하고 representation 학습을 하였음. 이것은 스토리지를 많이 요구하고, 대규모 트레이닝에 비효율적임. Decoded frame없이 학습할 수 있었지만, supervised 기반이었지, self-supervised는 관심이 덜했음 Contribution 압측된 비디오 포맷에서 직접 비디오 표현 학습을 한다. 압축된 비디오는 두 가지 고유한 특성이 있음, 일단 GOP란? MPEG 포맷을 위해 영상 프레임의 덩어리를 가리킴 GOP(Group Of Picture) 왜 압축된 비디오가 유리할까? GOP는 몇 장의 이미지와 (I-frame), residual, less motion information이 있는 프레임도 포함한다. 프레임 레벨보다 GOP 레벨에서 더 consistency가 있는 모션 정보를 가져올 수 있다. 따라서 멀티모달 표현 학습을 할 수도 있다. (이미지, 모션 벡터, 잔차) 이를 이용해서 novel pretext task를 수행할 수 있음 ...