[논문] VideoMoCo, Contrastive Video Representation Learning with Temporally Adversarial Examples

Motivation MoCo 구조를 비디오 도메인으로 확장 Related Works 생략 Contribution Propose temporallly adversarial learning to improve the feature representation of the encoder ConvLSTM을 통해 프레임 마스크를 출력 → Discriminator(encoder)를 통해 쿼리 피처와 프레임 피처를 출력 → 프레임이 같으면 0, 마스킹된 것은 차이가 최대 마스킹 프레임의 피처를 잘 배울 수 있도록 이 차이가 최대가 되도록 학습 Propose temporal decay to reduce the effect from historical keys in the memory queyes during contrastive learning ...

[논문] CvT, Introducing Convolution to Vision Transformer

Motivation 트랜스포머를 적용한 비전 모델은 더 적은 데이터로 학습하고 비슷한 사이즈의 ResNet보다 성능이 낮음. 그 이유는 비전 태스크에서 CNN이 가지는 장점을 ViT는 활용할 수 없음. 이미지는 pixel간 local correlation이 있고 CNN은 이걸 잘 잡아내는데, ViT는 이 능력이 부족함. 이러한 CNN의 local correlation에는 shift, scale, distortion invariance가 있음 Related Works 생략 Contribution 가장 큰 핵심은 트랜스포머의 MLP를 컨볼루션으로 대체한 것 Convolutional Token Embedding Layer 이전의 CvT 출력을 입력으로 받아서, 새로운 토큰을 만드는 함수 f를 정의. 이 f는 s x s 컨볼루션으로 구성, 출력 사이즈는 H x W x X. 이를 flatten하면 HW x C이고 layer normalized를 적용하고 다음 트랜스포머 블록으로 입력, 이러한 과정은 두 장점이 있음. ...

[논문] Swin Transformer, Hierarchical Vision Transformer using Shitfed Windows

Motivation 이 논문은 일반적인 컴퓨터 비전에서의 트랜스포머 백본을 제공하기 위함이다. 자연어처리에서의 트랜스포머가 비전으로 옮겨올 때, 두 도메인에서의 차이가 있었다. 하나는 비주얼 객체의 다양한 바리에이션이고 단어와 비교해서 이미지의 높은 해상도가 문제이다. → 이미지나 이미지 패치에 직접 트랜스포머를 적용하면 계산량이 쿼드라틱하게 증가한다. Related Works 작년 10월, 구글의 ViT는 비전 태스크에 컴퓨터 비전 분야는 CNN가 지배적임. AlexNet부터 더 크고, 다양하고, 정교한 기술들로 CNN backbone들이 발전함. 한편 자연어 분야는 트랜스포머가 지배적 → 트랜스포머는 데이터의 long range dependency를 잘 반영함 (언어의 특징). 이 논문은 컴퓨터 비전을 위한 트랜스포머를 좀 더 실용적으로 쓸 수 있는 아이디어를 제공 ...

[논문] RAFT, Recurrent All Pairs Feild Transforms for Optical Flow

Motivation 옵티컬 플로우 문제의 정의: 비디오 프레임에서 픽셀 레벨로 모션을 추정하는 것이다. 옵티컬 플로우는 Occlusion, motion blur, textureless surfaces 등에서 어렵다. 옵티컬 플로우 최적화 문제는 두 개의 항으로 구성되어 있다. Data term Regularization term 이 둘에는 trade-off가 있다. Visual similarity에 기여하는 data가 문제인가? Prior를 강하게 부과하는 regularization이 문제인가? Related Works Supervised Optical Estimation에서 가장 중요한 모델은 FlowNet, FlowNet 2.0 옵티컬 플로우 연구의 중요한 기술은 Pyramid, Warping, Cost Volume Pyramid 뎁스, 플로우 Large motion을 다룰려면 큰 이미지에서는 픽셀간 거리가 멀다. 그런데 이미지를 다운 샘플링하면, Large motion의 픽셀 간 비율은 유지되어도, 거리가 짧아지므로 correlation을 계산하기 쉽다. (나는 이것을 어텐션으로 해결 가능) 큰 모션을 다루기 위해 이미지 피라미드 형태로 작은 해상도로 다운 샘플링 했을때 테일러 전개를 하면 본 해상도에서 좀 더 큰 이동을 볼 수 있다. → 이 문제는 빠르게 움직이는 물체를 놓침 ...

[논문] Representation Learning with Convtrastive Predictive Coding

Motivation Contrastive Learning은 latent space으로부터 downstream task에 유용하게 쓰일 정보를 최대한 뽑아낸다. Contrastive Learning은 여러 태스크에서 좋은 성능을 보일 수 있다. 특히 Predictive Coding과 함께히면 더 좋다. 이 논문의 중요한 직관은 signal의 서로 다른 부분 사이에서 공유되는 정보를 인코딩하여 representation learning을 하는 것이다. 고차원 데이터를 예측할 때, MSE나 CE같은 로스는 적절하지 못하다. 그리고 강력한 조건부적인 생성 모델이 필요한데, 데이터의 모든 디테일을 생성해야하는 특성 상, 계산량 오버헤드가 너무 커서 부당이 된다. 여러가지 이유로 x, c 사이의 p(x|c) 방식의 모델링은 상호간 정보를 알기에는 최적이 아니다. Related Works 셍략 ...

[논문] ViViT, A Video Vision Transformer

Motivation 비디오에서 temporal token을 받아, 트랜스포머에서 처리하는 방법론을 제안 ViT에서 영감을 받아, 트랜스포머가 시퀀셜한 데이터를 처리하는 것을 비디오에 적용해보는 것은 자연스러움 Related Works 생략 Contribution 트랜스포머만으로 비디오 데이터를 처리하는 프레임워크를 제안 공간 차원과 시간 차원으로 분해해서 연산하는 효율적인 방법론 regularization과 빠른 학습을 위해 어떻게 Pre-trianed 모델을 가져다 썻는지 보여줌 비디오 임베딩 ViT에서 했던 방법을 사용해서 비디오 클립을 유니폼 샘플링 후, 샘플링 프레임마다 tokenizing 다른 하나는 토큰 차원을 temporal로 확장해서 사용 세 가지 구조 모델 1 ...

[논문] Big Self-Supervised Models are Strong Semi-Supervised Learners (SimCLR v2)

용어의 정리 task-agnostic: 태스크에 구애받지 않는 fine-tuning 할 때 사용하는 태스크는 최종 태스크 (specific task) Motivation 레이블이 없는 방대한 데이터를 잘 활용하면서, 몇 가지 레이블로만 학습 효율을 높이는 방법론 중 하나는 비지도 학습 기반의 사전 훈련과 fine-tuning이다. 즉, 레이블이 없는 방대한 데이터를 통한 비지도 학습으로 좋은 representation을 얻은 후, 이를 통해 적은 레이블의 데이터만으로 fine-tuning을 하는 것 이러한 방법론을 컴퓨터 비전에서는 어떻게 할 수 있을지에 대한 연구이다. Related Work 이미 자연어 처리에서는 지배적인 방법이다. (큰 모델을 학습하고, 작은 모델에 teacher-student 방식으로 fine-tuning을 할 수 있는 것) 자연어 처리에서는 레이블링 되지 않은 데이터를 간접적으로 활용하지만, 컴퓨터 비전에서는 비지도 학습 기반의 방법을 직접 모델에 사용하였다. 이러한 접근은 unlabeled data를 task-specific에서 사용하는 것이 문제이다. → 좀 더 제네럴한 모델을 가져보고 싶다. 즉 task-agnostic한 방법이 없을까? ...

[논문] A Simple Framework for Contrastive Learning of Visual Representations

용어의 정의 Pretext task: represenation learning을 위해 수행되는 태스크 Downstream task: pretext task로 얻은 파라미터를 동해 본격 풀고자 하는 문제를 푸는 것 Motivation 모델의 표현력을 극대로 끌어올리는 방법에 대한 연구, 특히 이를 효율적으로 할 수 있을까? Related Work Visual representation learning의 non supervision 관점에서 두 가지 메인스트림이 있음 Generative 이 방식은 계산량이 많음, 그리고 representation learning이 꼭 필요하지는 않음 Discriminative supervised learning에서 사용된 방법과 비한 오브젝티브 펑션이 있고, 이를 통해 reprsentation을 학습함 그러나 unlabeld dataset으로부터 얻은 label과 input 사이에서 pretext task를 수행해야함 최근의 discriminative 방식은 contrastive learning에 근거한 방법이 많음 (CPC, CMC, CPC v2 등등) Contribution representation learning에서 data augmentation에 대한 체계적인 고민이 없었음. 효과적인 contrastive learning을 위해, augmentation 방법에 대한 레시피를 제안 rerpesentation (latent vector) 와 loss function 사이에 non-linear transformation을 끼워서 represenstation의 퀄리티를 높임 nomalized 임베딩과 템퍼쳐 파라미터로 representation learning loss는 좀 더 나아질 수 있음 contrastive learning은 더 큰 배치 사이즈와 더 오랫동안의 훈련에서 이점이 있음 Experiments Data augmentation 저자는 몇 가지 augmentation을 사용하였고, 이미지넷은 크기가 제각각이기 때문에 crop, resize를 항상 적용. single transformation은 좋은 representation을 만들지는 못함 → compose augmentation은 contrastive prediction task가 어렵지만, 좋은 representation을 얻음. 특히 하나의 composed augmentation가 성능이 좋음 (croppping+ color distortion) cropping만 적용하면 이미지 패치들이 대부분 비슷한 color distribution을 공유하는 문제, 따라서 augmentation을 해도 히스토그램이 비슷해서 이것 만으로도 이미지 구별이 가능할 것. NN은 이 히스토그램만으로 predictive task를 풀 수 있음. 좀 더 의미 있는 feature를 배우기 위해 color distortion을 cropping과 함께 쓰는 것이 좋음 Non linear projection head both rerpesentation and loss non linear projection이 linear projection보다 성능이 좋음 non linear projection이 없는 것보다 성능이 훨씬 좋음 L1 normalized와 temp 파라미터는 적절한 스케일링이 없으면 좋은 성능을 이끌어낼 수 없음, 따라서 적절한 파라미터를 선택해야함 더 많은 트레이닝과 배치 사이즈는 contrastive learning의 효과를 크게 함. 특히 배치 사이즈가 크면 더 많안 네거티브 샘플을 만들 수 있어서 좋음. SimCLR는 특히 메모리 뱅크와 같은 방식을 사용하지 않음, 샘플링한 데이터에서 각각 agumentation을 적용하고, 같은 샘플은 positive pair, 다른 샘플은 네거티브 샘플로 다룸. 따라서 배치 사이즈가 크면 네거티브 샘플의 경우가 많아서 성능을 이끌어낼 수 있음 특히 트레이닝 에포크가 길수록, 배치 사이즈에 따른 성능 차이는 줄어듬 Conclusion 생략

[논문] Transformer is All You need, Multimodal Multitask Learning with a Unified Transformer

Motivation UniT는 비전에서부터 자연어까지 명백히 다른 도메인의 태스크들을 동시에 학습하는 모델이다. 모달리티 입력을 인코딩해서, 디코더를 통해 각 태스크에 맞는 예측을 진행한다. 각 태스크에 맞는 로스와 함께 엔드 투 엔드로 학습을 한다. 핵심은 이전 논문과는 다르게 이 모델은 태스크 스페시픽한 파인튜닝 없이도 모델의 파라미터를 공유한다. 그럼에도 불구하고 서로 다른 도메인 문제를 핸들링할 수 있다. 트랜스포머는 자연어나 비전에서의 다운스트림 태스크에 매우 큰 성능을 보여주고 있다. 최근에 비전 + 자연어 태스크에서 좋은 성능을 보여주었지만, 아직까지 트랜스포머를 통해 서로 다른 도메인 태스크를 연결하는 시도는 잘 없었다. 자연스럽게 다음의 질문이 생긴다. Overall, is it possible to build a single, unified model that simultaneously handles tasks in a variety of domains? Related Work 기존에는 하나의 도메인 또는 제한된 환경에서의 멀티모달 도메인 작업을 수행하였다. (예를 들면 비주얼 + 자연어) 각 태스크에 대한 파인 튜닝을 요구하였다. 태스크 간 파라미터를 공유하지 않았는데, 단순 산술로 N개 태스크에서 N배의 파라미터가 증가한다. 하나의 도메인에서 유사하거나 연관된 멀티 태스킹을 수행하였다. 오직 자연어면 자연어 아니면 비전 + 자연어 이런 형태이다. Contribution 앞서 말했듯이 하나의 모델로 여러 멀티 태스크를 훈련하고 추론한다. VQA, Visual Entailment같은 멀티 태스크가 하나의 모델로 학습하는 것으로부터의 이점을 증명한다. UniT의 구조 이미지는 DETR의 ResNet50과 pretrained 모델로 featuremap을 추출한다. 그리고 이를 트랜스포머 인코더에 넣는다. (트랜스포머의 인코더 구조도 그렇고 전반적으로 DETR을 많이 계승하였음) 텍스트는 BERT의 방법을 많이 따왔다. 텍스트 토큰화는 BERT의 그것과 같다. 그리고 이 토큰 시퀀스는 사전 학습된 BERT의 입력으로 들어간다. 다만 모종의 이유로 이 논문의 구현에서는 허깅페이스 트랜스포머 라이브러리를 사용하였다. 그럼다음 이들을 concatenate하고 공통의 트랜스포머 디코더에서 작업한다. 마지막 끝 단에 태스크 스페시픽한 헤드가 있어서 각자의 태스크에 맞게 추론을 한다. 디코더의 입력으로 태스크 스페시픽한 쿼리 임베딩 벡터를 받는다. 디코더의 구조는 DETR의 트랜스포머 디코더를 사용하였다. 마지막 Task Specific 헤드에 관하여… 오브젝트 디텍션을 예로 들면, 디코더의 출력에다가 배경을 포함하여 어떤 클래스인지 추론하는 분류기와 바운딩 박스를 추론하는 모듈을 추가하였다. 이는 디코더 히든 스테이트에서의 각 자리이다. (무슨 말???) Experiments 실험은 먼저 OD + VQA 훈련에 관한 실험을 하고, 그 다음에는 다른 태스크를 결합한 훈련을 하였다. OD: COCO, Visual Genome, VQA: VQAv2 ...

[논문] TCLR: Temporal Contrastive Learning for Video Representation

Motivation 비디오 레프리젠테이션 러닝에서 쓰일만한 두 가지 콘트라스티브 러닝 프레임워크를 제안. 첫 번째 로스는 같은 비디오에서 겹치지 않는 클립 간의 콘트라스티브 러닝. 두 번째 로스는 피처의 시간적 다양성을 위해서 입력 클립의 피처맵에서 타임 스탬프 간을 구분하는 콘트라스티브 러닝. 좋은 표현 학습은 다운스트림 태스크의 성능을 좋게 만들 수 있음 Related Work 생략 Contribution Local-Local Temporal Contrastive Learning 같은 비디오에서 같은 local timestamp의 (augmentation를 먹이더라도) 비디오 클립은 서로 attract 같은 비디오에서 다른 local timestamp의 비디오 클립은 서로 repel ...