Motivation
- 비디오 프레임간 시간 불일치성을 해결하기 위해 DVP를 implcit하게 DNN에 주는 방법을 제안
- DVP가 무엇인가?
비디오를 사용한 멀티모달 태스크에서는 성능의 흔들림이 심함 → 이터레티브하게 중요도를 재할당하는 전략으로 해결
Related Work
- 이전 비디오 연구들은 구축된 대규모 비디오 데이터셋이 필요했음
- 옵티컬 플로우 같은 정보나, 단순 프레임 간 유사도를 비교하는 것만으로는 롱-텀 비디오에 적합하지 않음
- 이전 비디오 연구들은 멀티 모달 태스크에서 좋은 성능을 골고루 보이기 어려웠음
Contribution
DVP가 무엇인가?
DVP는 비디오 처리에서 임플리싯하게 비디오 일관성을 주기 위해 사용되는 성질들을 일컬음어떻게 프라이어를 알아내는가?
초기 훈련 단계에서 유사한 두 패치의 CNN 출력 (같은 물체는 인접한 비디오에서 비슷한 표현을 준다. → 시간 일관성이 내재되어 있음을 말함)
DVP는 레퍼런스 프레임에서 다른 프레임으로 정보를 전달할 때에도 사용할 수 있음 → 내가 하고자 하는것: 이 DVP를 키포인트 매칭같은 것을 통해 …
일반적인 비디오 일관성은 옵티컬 플로우를 통해서 이루어진다.
옵티컬 플로우 기반 reg는 t→t-1 플로우 와핑 연산과 t와의 차이가 0인 프라이어를 이용한다.
그러나 DVP는 이러한 프라이어마저 임플리싯하다.
또한 옵티컬 플로우 기반은 이미지가 매우 크거나, 롱-텀 비디오에서는 전혀 맞지 않는다.
Blind Video Temporal Consistency
Video Propagation
비디오 프로파게이션의 목적은 전체 비디오 시퀀스에서 서브 시퀀스가 처리된 효과를 전체 프레임의 출력의 효과로 전달하는 것이다.
예를 들어 첫 번째 프레임을 색칠한 효과를 나머지 프레임의 출력에서도 그대로 얻는 것을 말하는 것
첫 번째 프레임의 정보를 프로파게이션해서, 나머지 프레임 프로세싱에서도 그 정보를 활용하여 일관된 색칠을 할 수 있을 것학습 방법
테스트 비디오 프레임에서 오직 레퍼런스 프레임 하나로만 학습
다른 프레임의 처리 결과에 의한 백워드는 fix하고, 레퍼런스 프레임에 대해서만 학습하여 implicit propagation을 함
Experiments
생략
Conclusion
테스트 비디오를 보는 것은 치팅 행위라고 생각한다.