[논문] Non Deep Networks

Motivation DNN의 깊이가 깊어지면 단점이 많음 → 레이턴시가 길어지기 때문에 빠른 반응을 필요로 하는 애플리케이션이 부적합 어떻게 하면 얕은 깊이의 DNN으로도 충분한 성능을 낼 수 있을까? → 해답은 패러렐한 뉴럴넷 구성으로 성능을 낼 수 있다. Related Works 생략 Contribution 구체적으로 ~10 레이어, ~12 레이어까지 적절함을 말한다. VGG 스타일의 블록을 사용한다. (구체적으로 Rep-VGG을 빌리지만, 목적에 맞게 조금 수정) 제한된 네트워크 깊이로 receptive field가 좁다. 이를 해결하기 위해, Squeeze-Exicitation 레이어에 기반한 SSE 레이어를 추가하였다. ...

[논문] Content-aware Unsupervised Deep Homography Estimation and Its Enxtensions

Motivation 기존 뎁스 추정은 correspondence estimation으로 풀었다. 그러나 이 과정에는 문제가 있음 Conventional 방법은 텍스쳐가 약하거나, non-Lambertian 표면에서 문제가 생김 딥러닝 기반은 뎁스 consistency가 일정하지 않고, photometric consistency에서 3D 정보를 제대로 반영하지 못하는 문제 이 논문은 NeRF의 힘을 빌려, 멀티 뷰 스테레오 뎁스 추정을 하고자 함 correspondence estimation과 corr view depth reprojection 최적화 대신에, 이 논문은 다이렉트로 부피를 최적화함 → 그런데 NeRF에서는 shape-radiance ambiguity 문제가 있음. 이를 해결하기 위해 뎁스 프라이어 기반의 NeRF 훈련 가이던스를 제안함 Related Work Conventional 방법은 textuless, non-lambertian 표면에서 문제가 발생 Learning based 방법은 depth consistency 일정하지 않고, photometric loss가 3D 정보를 반영하지 못함 Contribution Depth consistency를 해결하기 위한 제안 방법 ...

[논문] Video Object Segmentation with Compressed Video

Motivation 비디오 압축 코덱 정보만으로 세그멘테이션 추론을 어떻게 빨리 할 수 있을까? Related Works 기존 VOS 태스크들은 정확하지만 속도가 느림 효율적인 방법들이 제시되었으나, 정확도 간의 트레이드오프가 있음 옵티컬 플로우 기반은 비용이 너무 비쌈, 그리고 two-view 밖에 못 봄 Contribution 키프레임에서 다른 프레임으로 bidirectional, multi-hop 방식으로 세그멘테이션 마스크를 전달하여 워핑하는 네트워크 디자인 소프트 프로파게이션 모듈 부정확하고 블록 단위의 모션 벡터를 입력으로 받아서, 노이즈를 없앤 후 정확한 와핑을 할 수 있게 함 → 모션 벡터 와핑 모듈을 제안 ...

[논문] Contextual Transformer Networks for Visual Recognition

Motivation 비전 태스크에서 셀프 어텐션의 계산이, 즉 공간적인 위치에서 Q, K가 서로 independent하게 계산이 되어지는 것이 단점 → context가 필요 Related Works CNN의 receptive field를 넓히는 것 → context를 잘 보긴 하지만, long range dependecy를 보지 못함 ViT, long range dependency를 보기는 하지만, independent한 Q, K의 interaction을 계산 Contribution 기존의 conventional self-attention은 서로 다른 위치간의 interaction을 잘 계산. 그러나 모든 pairwise Q-K relation은 independent함 → 풍부한 context를 보지 못함, 따라서 Conetxt Transformer 구조를 제안. ...

[논문] Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes

Motivation 너프의 스태틱 가정을 깨고 space-time 형태의 다이나믹 비디오에서 NVS를 하고자 함 Related Work Novel View Synthesis NeRF는 static scene임 (멈춰 있는 한 장면에서 MVS로 찍은 카메라 가지고 NVS) Novel Time Synthesis Temporal synthesis는 가능했지만, Space synthesis는 하지 않음 Space-Time synthesis Static 장면을 다루거나, 복잡한 기하적 관계를 풀지 못함 필요에 따라 사람의 라벨링이 요구되는 경우도 있음 Contribution NeRF와는 달리, 다이나믹 장면은 temporal domain을 포함한다. 따라서 비디오 프레임의 i도 포지션으로 입력하면 i → i+1, i-1의 scene flow [f, f’]가 출력을 하게끔 MLP 모델 디자인 ...

[논문] When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations

Motivation ViT, MLP 믹서가 어떤 경우에 레즈넷의 성능을 능가할 수 있을까? 의 고찰 ViT, MLP 믹서는 라지 스케일 트레이닝이나, 강한 데이터 arguments를 주어야 했음 모델이 인덕티브 바이어스를 포괄하기 힘들기 때문 그런데 이러한 기법 없이 레즈넷 보다 성능을 올리는 방법을 고민 Related Works 생략 Contribution ViT와 MLP 믹서의 그래디언트 필드는 매우 날카로운 로컬 미니마에 수렴한다는 것을 보여준다. (이는 레즈넷보다 몇 배 더 큼) 이러한 필드는 백프롭때 그래디언트가 누적되고, 초기 임베딩 레이어가 굉장히 큰 헤시안 행렬의 고유값을 가지면서 문제가 될 수 있음 네트워크들은 상대적으로 작은 훈련 에러를 가지고, 특히 MLP 믹서는 ViT보다 오버피팅 가능성이 있다. ViT, MLP 믹서는 레즈넷보다 훈련성이 다소 떨어진다. 컨볼루션의 translation equip과 로컬리티가 레즈넷을 로컬 미니마에서 빠져나오기 하는 역할을 할 것으로 추론하지만, 컨볼루션 프리인 ViT, MLP 믹서는 이러한 기능을 가질수가 없다. 그래서 두 모델의 훈련 기능을 향상할 필요가 있다. ...

[논문] Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Motivation 비디오에서 시간 차원은 공간 차원과 같은 방법으로 처리되었음. 비디오에서 물리적 위치가 t 프레임에 사영된 것과 t+k 프레임에 사영된 지점은 서로 무관할 수 있기 때문임. Temporal correspondence는 이러한 다이나믹 장면을 학습하기 용이하게 설계되어야 함 Related Works RAFT의 옵티컬 플로우 추정은 두 프레임의 temporal corrrespondence 문제이다. RAFT의 correlation volume은 본질적으로 attention map와 같다. Allan Jabri의 연구에서는 비디오 temporal correspondnce 문제를 contrastive random walk 문제로 정의하고 해결 위와는 다르게 trajectory attention을 통해 temporal correspondece 문제를 해결 Contribution Trajectory Attention ...

[논문] Long-Shot Temporal Contrastive Learning of Video Transformers

Motivation 비디오 트랜스포머가 기존 CNN 기반 비디오 모델들에 비해 경쟁력있는 성능을 보임 그러나 많은 파라미터와 inductive bias 부족은 대규모 데이터셋으로 학습된 강력한 사전 모델을 요구함 Related Works 생략 Contribution TimSformer vs Swin Transformer 이 논문은 스윈 트랜스포머의 속성을 비디오 도메인으로 확장하였음 Long-Shot Temporal Contrastive Learning 템포랄 도메인의 CL을 고안 레이블링이 되지 않은 비디오 B를 입력으로 받는다. 비디오 B를 랜덤하게 숏클립과 롱클립으로 샘플링해서 나눈다. 프레임의 수는 같으나, 시간 간격이 달라서 롱클립이 더 긴 범위의 비디오 표현을 담고 있다. 숏클립을 쿼리로, 롱클립을 키로 임베딩하여 InfoCE에 적용한다. 이제 롤을 바꿔서 반대의 경우로 InfoCE에 적용한다. Experiments 스트라이드 수를 고정했을때 정확도가 가장 좋다. 모든 CL 학습 방식에서, 롱 스트라이드가 숏 스트라이드보다 클 때 성능이 제일 좋다. Spacetemporal + Swin은 템포랄 정보까지 학습. 단순 프레임 레벨로 공간 정보만 학습한 비디오 스윈 트랜스포머보다 성능이 더 높음 Conclusion 스윈 트랜스포머를 temporal axis로 확장하면 성능이 더 좋다. CL에 서로 다른 템포랄 정보의 숏클립, 롱클립은 효과가 있으나, 스트라이드 수 고정이 좋음

[논문]Self-Supervised Learning of Compressed Video Representation

Motivation 효율적으로 비디오 표현 학습을 하는 방법을 고민 Related Work 이전 연구들은 비디오 프레임을 프로세싱하기 전에 JPEG 같은 형태로 디코딩하여 저장하고 representation 학습을 하였음. 이것은 스토리지를 많이 요구하고, 대규모 트레이닝에 비효율적임. Decoded frame없이 학습할 수 있었지만, supervised 기반이었지, self-supervised는 관심이 덜했음 Contribution 압측된 비디오 포맷에서 직접 비디오 표현 학습을 한다. 압축된 비디오는 두 가지 고유한 특성이 있음, 일단 GOP란? MPEG 포맷을 위해 영상 프레임의 덩어리를 가리킴 GOP(Group Of Picture) 왜 압축된 비디오가 유리할까? GOP는 몇 장의 이미지와 (I-frame), residual, less motion information이 있는 프레임도 포함한다. 프레임 레벨보다 GOP 레벨에서 더 consistency가 있는 모션 정보를 가져올 수 있다. 따라서 멀티모달 표현 학습을 할 수도 있다. (이미지, 모션 벡터, 잔차) 이를 이용해서 novel pretext task를 수행할 수 있음 ...

[논문] When Does Contrastive Visual Representation Learning Work

Conclusion Contrastive Learning이 언제 유효하고, 또 언제 성능이 안 좋은지에 대해서 4가지 관점으로 고민 데이터 양, 데이터 도메인, 데이터 품질, 태스크 세분화 50만 장을 넘는 데이터 이점은 그리 많지 않음 다른 도메인으로부터 pretraining image를 추가하는 것은 general representation을 이끌어내지 않음 corrupted pretraining image → disparate impact on supervised pretraining CL lags far behind SL on fine-grained visual task