[논문] ViViT, A Video Vision Transformer

Motivation 비디오에서 temporal token을 받아, 트랜스포머에서 처리하는 방법론을 제안 ViT에서 영감을 받아, 트랜스포머가 시퀀셜한 데이터를 처리하는 것을 비디오에 적용해보는 것은 자연스러움 Related Works 생략 Contribution 트랜스포머만으로 비디오 데이터를 처리하는 프레임워크를 제안 공간 차원과 시간 차원으로 분해해서 연산하는 효율적인 방법론 regularization과 빠른 학습을 위해 어떻게 Pre-trianed 모델을 가져다 썻는지 보여줌 비디오 임베딩 ViT에서 했던 방법을 사용해서 비디오 클립을 유니폼 샘플링 후, 샘플링 프레임마다 tokenizing 다른 하나는 토큰 차원을 temporal로 확장해서 사용 세 가지 구조 모델 1 ...

[논문] Transformers Solve the Limited Receptive Field for Monocular Depth Prediction

1. Motivation CNN 기반 monocular depth estimation은 제한된 receptive field로 인해 global context를 충분히 포착하지 못한다는 근본적인 한계가 있다. Transformer는 self-attention 메커니즘을 통해 이미지 전체의 long-range dependency를 효과적으로 모델링할 수 있다. 이 논문은 Transformer를 monocular depth estimation 및 surface normal prediction에 처음으로 적용한 연구다. 2. Related Work CNN 기반 depth estimation은 U-Net, DeepLabV3+ 등의 구조로 발전해 왔으나, 모두 local receptive field의 한계를 내재하고 있다. Attention 메커니즘을 depth estimation에 활용한 연구들은 있었으나, Transformer 구조 자체를 depth estimation backbone으로 채택한 시도는 이 논문이 처음이다. ...

[논문] S3: Learnable Sparse Signal Superdensity for Guided Depth Estimation

1. Motivation LiDAR 등 sparse signal은 dense depth prediction을 위한 가이던스로 활용될 수 있지만, 두 가지 근본적인 문제가 있다: Raw sparse signal의 무시 문제: RGB로 추측한 depth value와 sparse signal이 현저하게 다를 때, 네트워크는 sparse signal을 무시하는 경향이 있다. 이는 sparse signal의 본질적인 low density에 기인한다. Imbalance 문제: 뉴럴 네트워크는 signal density가 비교적 큰 영역에 초점을 맞추고, low density 영역(LiDAR scanning line 사이 영역)은 가까스로 예측한다. 이로 인해 결과가 매끄럽지 않게 된다. ...

[논문] Big Self-Supervised Models are Strong Semi-Supervised Learners (SimCLR v2)

용어의 정리 task-agnostic: 태스크에 구애받지 않는 fine-tuning 할 때 사용하는 태스크는 최종 태스크 (specific task) Motivation 레이블이 없는 방대한 데이터를 잘 활용하면서, 몇 가지 레이블로만 학습 효율을 높이는 방법론 중 하나는 비지도 학습 기반의 사전 훈련과 fine-tuning이다. 즉, 레이블이 없는 방대한 데이터를 통한 비지도 학습으로 좋은 representation을 얻은 후, 이를 통해 적은 레이블의 데이터만으로 fine-tuning을 하는 것 이러한 방법론을 컴퓨터 비전에서는 어떻게 할 수 있을지에 대한 연구이다. Related Work 이미 자연어 처리에서는 지배적인 방법이다. (큰 모델을 학습하고, 작은 모델에 teacher-student 방식으로 fine-tuning을 할 수 있는 것) 자연어 처리에서는 레이블링 되지 않은 데이터를 간접적으로 활용하지만, 컴퓨터 비전에서는 비지도 학습 기반의 방법을 직접 모델에 사용하였다. 이러한 접근은 unlabeled data를 task-specific에서 사용하는 것이 문제이다. → 좀 더 제네럴한 모델을 가져보고 싶다. 즉 task-agnostic한 방법이 없을까? ...

[논문] A Simple Framework for Contrastive Learning of Visual Representations

용어의 정의 Pretext task: represenation learning을 위해 수행되는 태스크 Downstream task: pretext task로 얻은 파라미터를 동해 본격 풀고자 하는 문제를 푸는 것 Motivation 모델의 표현력을 극대로 끌어올리는 방법에 대한 연구, 특히 이를 효율적으로 할 수 있을까? Related Work Visual representation learning의 non supervision 관점에서 두 가지 메인스트림이 있음 Generative 이 방식은 계산량이 많음, 그리고 representation learning이 꼭 필요하지는 않음 Discriminative supervised learning에서 사용된 방법과 비한 오브젝티브 펑션이 있고, 이를 통해 reprsentation을 학습함 그러나 unlabeld dataset으로부터 얻은 label과 input 사이에서 pretext task를 수행해야함 최근의 discriminative 방식은 contrastive learning에 근거한 방법이 많음 (CPC, CMC, CPC v2 등등) Contribution representation learning에서 data augmentation에 대한 체계적인 고민이 없었음. 효과적인 contrastive learning을 위해, augmentation 방법에 대한 레시피를 제안 rerpesentation (latent vector) 와 loss function 사이에 non-linear transformation을 끼워서 represenstation의 퀄리티를 높임 nomalized 임베딩과 템퍼쳐 파라미터로 representation learning loss는 좀 더 나아질 수 있음 contrastive learning은 더 큰 배치 사이즈와 더 오랫동안의 훈련에서 이점이 있음 Experiments Data augmentation 저자는 몇 가지 augmentation을 사용하였고, 이미지넷은 크기가 제각각이기 때문에 crop, resize를 항상 적용. single transformation은 좋은 representation을 만들지는 못함 → compose augmentation은 contrastive prediction task가 어렵지만, 좋은 representation을 얻음. 특히 하나의 composed augmentation가 성능이 좋음 (croppping+ color distortion) cropping만 적용하면 이미지 패치들이 대부분 비슷한 color distribution을 공유하는 문제, 따라서 augmentation을 해도 히스토그램이 비슷해서 이것 만으로도 이미지 구별이 가능할 것. NN은 이 히스토그램만으로 predictive task를 풀 수 있음. 좀 더 의미 있는 feature를 배우기 위해 color distortion을 cropping과 함께 쓰는 것이 좋음 Non linear projection head both rerpesentation and loss non linear projection이 linear projection보다 성능이 좋음 non linear projection이 없는 것보다 성능이 훨씬 좋음 L1 normalized와 temp 파라미터는 적절한 스케일링이 없으면 좋은 성능을 이끌어낼 수 없음, 따라서 적절한 파라미터를 선택해야함 더 많은 트레이닝과 배치 사이즈는 contrastive learning의 효과를 크게 함. 특히 배치 사이즈가 크면 더 많안 네거티브 샘플을 만들 수 있어서 좋음. SimCLR는 특히 메모리 뱅크와 같은 방식을 사용하지 않음, 샘플링한 데이터에서 각각 agumentation을 적용하고, 같은 샘플은 positive pair, 다른 샘플은 네거티브 샘플로 다룸. 따라서 배치 사이즈가 크면 네거티브 샘플의 경우가 많아서 성능을 이끌어낼 수 있음 특히 트레이닝 에포크가 길수록, 배치 사이즈에 따른 성능 차이는 줄어듬 Conclusion 생략

[논문] Transformer is All You need, Multimodal Multitask Learning with a Unified Transformer

Motivation UniT는 비전에서부터 자연어까지 명백히 다른 도메인의 태스크들을 동시에 학습하는 모델이다. 모달리티 입력을 인코딩해서, 디코더를 통해 각 태스크에 맞는 예측을 진행한다. 각 태스크에 맞는 로스와 함께 엔드 투 엔드로 학습을 한다. 핵심은 이전 논문과는 다르게 이 모델은 태스크 스페시픽한 파인튜닝 없이도 모델의 파라미터를 공유한다. 그럼에도 불구하고 서로 다른 도메인 문제를 핸들링할 수 있다. 트랜스포머는 자연어나 비전에서의 다운스트림 태스크에 매우 큰 성능을 보여주고 있다. 최근에 비전 + 자연어 태스크에서 좋은 성능을 보여주었지만, 아직까지 트랜스포머를 통해 서로 다른 도메인 태스크를 연결하는 시도는 잘 없었다. 자연스럽게 다음의 질문이 생긴다. Overall, is it possible to build a single, unified model that simultaneously handles tasks in a variety of domains? Related Work 기존에는 하나의 도메인 또는 제한된 환경에서의 멀티모달 도메인 작업을 수행하였다. (예를 들면 비주얼 + 자연어) 각 태스크에 대한 파인 튜닝을 요구하였다. 태스크 간 파라미터를 공유하지 않았는데, 단순 산술로 N개 태스크에서 N배의 파라미터가 증가한다. 하나의 도메인에서 유사하거나 연관된 멀티 태스킹을 수행하였다. 오직 자연어면 자연어 아니면 비전 + 자연어 이런 형태이다. Contribution 앞서 말했듯이 하나의 모델로 여러 멀티 태스크를 훈련하고 추론한다. VQA, Visual Entailment같은 멀티 태스크가 하나의 모델로 학습하는 것으로부터의 이점을 증명한다. UniT의 구조 이미지는 DETR의 ResNet50과 pretrained 모델로 featuremap을 추출한다. 그리고 이를 트랜스포머 인코더에 넣는다. (트랜스포머의 인코더 구조도 그렇고 전반적으로 DETR을 많이 계승하였음) 텍스트는 BERT의 방법을 많이 따왔다. 텍스트 토큰화는 BERT의 그것과 같다. 그리고 이 토큰 시퀀스는 사전 학습된 BERT의 입력으로 들어간다. 다만 모종의 이유로 이 논문의 구현에서는 허깅페이스 트랜스포머 라이브러리를 사용하였다. 그럼다음 이들을 concatenate하고 공통의 트랜스포머 디코더에서 작업한다. 마지막 끝 단에 태스크 스페시픽한 헤드가 있어서 각자의 태스크에 맞게 추론을 한다. 디코더의 입력으로 태스크 스페시픽한 쿼리 임베딩 벡터를 받는다. 디코더의 구조는 DETR의 트랜스포머 디코더를 사용하였다. 마지막 Task Specific 헤드에 관하여… 오브젝트 디텍션을 예로 들면, 디코더의 출력에다가 배경을 포함하여 어떤 클래스인지 추론하는 분류기와 바운딩 박스를 추론하는 모듈을 추가하였다. 이는 디코더 히든 스테이트에서의 각 자리이다. (무슨 말???) Experiments 실험은 먼저 OD + VQA 훈련에 관한 실험을 하고, 그 다음에는 다른 태스크를 결합한 훈련을 하였다. OD: COCO, Visual Genome, VQA: VQAv2 ...

[논문] TCLR: Temporal Contrastive Learning for Video Representation

Motivation 비디오 레프리젠테이션 러닝에서 쓰일만한 두 가지 콘트라스티브 러닝 프레임워크를 제안. 첫 번째 로스는 같은 비디오에서 겹치지 않는 클립 간의 콘트라스티브 러닝. 두 번째 로스는 피처의 시간적 다양성을 위해서 입력 클립의 피처맵에서 타임 스탬프 간을 구분하는 콘트라스티브 러닝. 좋은 표현 학습은 다운스트림 태스크의 성능을 좋게 만들 수 있음 Related Work 생략 Contribution Local-Local Temporal Contrastive Learning 같은 비디오에서 같은 local timestamp의 (augmentation를 먹이더라도) 비디오 클립은 서로 attract 같은 비디오에서 다른 local timestamp의 비디오 클립은 서로 repel ...

[논문] Spatiotemporal Contrastive Video Representation Learning

Motivation 비디오의 비지도 표현 학습을 위해, 시간-공간적 맥락에서 contrastive learning을 적용 풍부한 표현 학습을 위해 효과적인 spatial-tempral augmentation 방법을 연구 Related Work 생략 Contribution Contrasitve learning 임베딩 스페이스의 피처 벡터들을 쫙 나열한 다음에 유사한 피처들은 거리가 가깝게끔 학습 (유사도가 낮은 것은 거리가 먼 것이므로 패널티를 주지 않음) 이를 통해서 같은 비디오의 tempral distant가 있는 두 비디오 클립의 encoder는 attract하고, 다른 비디오는 repel하게끔 학습 (SimCLR 참고) Temporal sampling strategy, consistenc spatial augmentation ...

[논문] Learning Monocular Depth in Dynamic Scenes via Instance-aware Projection Consistency

1. Motivation 동적 물체가 있는 장면에서 self-supervised monocular depth estimation을 수행하려면, 카메라 ego-motion과 개별 object motion을 분리하는 문제를 풀어야 한다. 기존의 static world 가정은 moving object가 많은 실제 환경에서 무너진다. 이 논문은 하나의 프레임워크 안에서 multiple dynamic object motion, camera ego-motion, monocular depth를 supervision 없이 동시에 학습하는 방법을 제안한다. 2. Related Work Dynamic object를 처리하기 위한 이전 연구들은 주로 semantic segmentation mask를 활용하거나, ego-motion과 object motion을 분리하는 별도의 네트워크를 두는 방식을 사용했다. 이 논문은 instance-level의 정보를 활용하여 더 세밀하게 각 객체의 모션을 추정한다. ...

[논문] Don't Forget the Past: Recurrent Depth Estimation from Monocular Video

1. Motivation 기존의 단안 카메라 기반 depth estimation 방법들은 테스트 시 한 장의 이미지만을 입력으로 받기 때문에 **시간적 의존성(temporal dependency)**을 본질적으로 무시한다. 그러나 실제 주행 환경에서는 카메라의 trajectory가 장면의 기하학과 높은 상관관계를 가지며, 이러한 시계열 정보를 활용하면 더 정확한 depth 추정이 가능하다. 이 논문은 ConvLSTM 기반의 recurrent network를 depth estimation에 최초로 적용하여 spatiotemporal 정보를 활용하는 방법을 제안한다. 2. Related Work RGB 기반 depth 추정: 비용이 저렴하나 많은 데이터가 필요함 지도 학습은 GT도 함께 필요하고, SSL은 데이터가 많이 필요하며 성능이 제한적 LiDAR 기반 depth 추정: ...