[논문] The Temporal Opportunist: Self-Supervised Multi-Frame Monocular Depth

1. Motivation 많은 depth estimation 애플리케이션에서 비디오 프레임 형식의 시퀀스 정보는 테스트 타임에도 사용 가능하다. 그러나 대부분의 monocular depth 네트워크는 이러한 추가 시간적 신호를 활용하지 않아, 중요한 정보를 무시하고 있다. 이 논문은 multi-frame을 활용하는 cost volume 기반 네트워크를 제안한다. 훈련 시에는 future 프레임까지 사용하지만, 테스트 시에는 과거 프레임만 사용하여 온라인 추론에도 적합하도록 설계했다. 2. Related Work Cost volume은 MVS(Multi-View Stereo) 기반 depth estimation에서 서로 다른 시점 또는 프레임 간 픽셀의 기하학적 비교를 측정하는 방법으로 활용되어 왔다. Multi-frame 정보를 self-supervised 방식으로 활용한 연구들은 pose network와 연계하여 프레임 간 reprojection error를 최소화하는 방향으로 발전해 왔다. ...

[논문] Skip-Convolutions for Efficient Video Processing

Motivation 비디오는 정지된 이미지의 연속일수도 있고, 변화하는 이미지의 연속일수도 있다. 우리는 세상을 비디오로 인지 → 즉, 변화를 인지 → 변화를 느낀다는 건, 프레임간 차이 (residual)이 누적되면서 어느 임계를 넘어가서 알아채는 것. 이러한 동기로 몇 가지 연구들이 있다. (뉴로모픽, 이벤트 카메라, SNN 등등) 그러나 아직까지가 주류가 아님. Related Works 기존의 비디오 처리는 픽셀 레벨의 dense prediction을 요구하는 경우가 많음 → 모든 프레임을 모델에 넣어서 연산 프레임 수가 증가할수록 연산량 오버헤드가 리니어하게 증가 → 심지어 새로운 변화가 없어도 계산을 해야만 함 이는 실시간 처리 (오브젝트 디텍션이나 포즈 추정) 등에 좋지 않음 ...

[논문] A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Motivation 비디오로부터 spatio-temporal 표현의 대규모 연구를 보여준다. 최근의 네 가지 이미지 기반 프레임워크에 대한 통합된 관점과 함께, 시공간적 방법, 즉 비디오 데이터로 일반화할 수 있는 간단한 목표를 제시. 중요한 이미지 비지도 표현 학습 논문은 data augmentation을 통해 같은 이미지의 서로 다른 뷰들에서 유사도가 높은 피처를 찾아내는 것이 목표이다. Contiribtuion 그런데 비디오는 자연적인 augmentation을 줄 수 있다. 모션, deformation, occlusion, illumination 등이다. (나의 이해: 비디오의 각 프레임들이 어떤 이미지의 augmentation. 이런 것들이 이어져서 temporal consistency를 만듬) ...

[논문] VideoMoCo, Contrastive Video Representation Learning with Temporally Adversarial Examples

Motivation MoCo 구조를 비디오 도메인으로 확장 Related Works 생략 Contribution Propose temporallly adversarial learning to improve the feature representation of the encoder ConvLSTM을 통해 프레임 마스크를 출력 → Discriminator(encoder)를 통해 쿼리 피처와 프레임 피처를 출력 → 프레임이 같으면 0, 마스킹된 것은 차이가 최대 마스킹 프레임의 피처를 잘 배울 수 있도록 이 차이가 최대가 되도록 학습 Propose temporal decay to reduce the effect from historical keys in the memory queyes during contrastive learning ...

[논문] CvT, Introducing Convolution to Vision Transformer

Motivation 트랜스포머를 적용한 비전 모델은 더 적은 데이터로 학습하고 비슷한 사이즈의 ResNet보다 성능이 낮음. 그 이유는 비전 태스크에서 CNN이 가지는 장점을 ViT는 활용할 수 없음. 이미지는 pixel간 local correlation이 있고 CNN은 이걸 잘 잡아내는데, ViT는 이 능력이 부족함. 이러한 CNN의 local correlation에는 shift, scale, distortion invariance가 있음 Related Works 생략 Contribution 가장 큰 핵심은 트랜스포머의 MLP를 컨볼루션으로 대체한 것 Convolutional Token Embedding Layer 이전의 CvT 출력을 입력으로 받아서, 새로운 토큰을 만드는 함수 f를 정의. 이 f는 s x s 컨볼루션으로 구성, 출력 사이즈는 H x W x X. 이를 flatten하면 HW x C이고 layer normalized를 적용하고 다음 트랜스포머 블록으로 입력, 이러한 과정은 두 장점이 있음. ...

[논문] Swin Transformer, Hierarchical Vision Transformer using Shitfed Windows

Motivation 이 논문은 일반적인 컴퓨터 비전에서의 트랜스포머 백본을 제공하기 위함이다. 자연어처리에서의 트랜스포머가 비전으로 옮겨올 때, 두 도메인에서의 차이가 있었다. 하나는 비주얼 객체의 다양한 바리에이션이고 단어와 비교해서 이미지의 높은 해상도가 문제이다. → 이미지나 이미지 패치에 직접 트랜스포머를 적용하면 계산량이 쿼드라틱하게 증가한다. Related Works 작년 10월, 구글의 ViT는 비전 태스크에 컴퓨터 비전 분야는 CNN가 지배적임. AlexNet부터 더 크고, 다양하고, 정교한 기술들로 CNN backbone들이 발전함. 한편 자연어 분야는 트랜스포머가 지배적 → 트랜스포머는 데이터의 long range dependency를 잘 반영함 (언어의 특징). 이 논문은 컴퓨터 비전을 위한 트랜스포머를 좀 더 실용적으로 쓸 수 있는 아이디어를 제공 ...

[논문] RAFT, Recurrent All Pairs Feild Transforms for Optical Flow

Motivation 옵티컬 플로우 문제의 정의: 비디오 프레임에서 픽셀 레벨로 모션을 추정하는 것이다. 옵티컬 플로우는 Occlusion, motion blur, textureless surfaces 등에서 어렵다. 옵티컬 플로우 최적화 문제는 두 개의 항으로 구성되어 있다. Data term Regularization term 이 둘에는 trade-off가 있다. Visual similarity에 기여하는 data가 문제인가? Prior를 강하게 부과하는 regularization이 문제인가? Related Works Supervised Optical Estimation에서 가장 중요한 모델은 FlowNet, FlowNet 2.0 옵티컬 플로우 연구의 중요한 기술은 Pyramid, Warping, Cost Volume Pyramid 뎁스, 플로우 Large motion을 다룰려면 큰 이미지에서는 픽셀간 거리가 멀다. 그런데 이미지를 다운 샘플링하면, Large motion의 픽셀 간 비율은 유지되어도, 거리가 짧아지므로 correlation을 계산하기 쉽다. (나는 이것을 어텐션으로 해결 가능) 큰 모션을 다루기 위해 이미지 피라미드 형태로 작은 해상도로 다운 샘플링 했을때 테일러 전개를 하면 본 해상도에서 좀 더 큰 이동을 볼 수 있다. → 이 문제는 빠르게 움직이는 물체를 놓침 ...

[논문] Self-Supervised Monocular Trained Depth Estimation using Self-Attention and Discrete Disparity Volume

1. Motivation Disparity(시차)는 장면의 context에 따라 값이 크게 달라지는 특성이 있다. 기존 CNN 기반 depth estimation은 locality 연산 때문에 넓은 context를 보지 못하는 한계가 있다. 이 논문은 self-attention을 통한 non-local context 집계와 **Discrete Disparity Volume (DDV)**을 결합하여 이 문제를 해결하고자 한다. 핵심 가설: pixel-level 예측 문제에서 correct context는 CNN이 접근하지 못하는 non-contiguous location에 걸쳐 있다 → self-attention의 필요성. 2. Related Work Monodepth2: Self-supervised monocular depth estimation의 강력한 베이스라인. ResNet-18 encoder 기반. Self-Attention in Vision: Semantic segmentation에서 context 정보를 aggregation하는 전략으로 유효성이 입증되었다. Stereo Matching의 Cost Volume: Disparity cost volume을 통해 robust한 depth 추정이 가능하다. 이를 monocular SSL 설정에 도입하는 시도가 이 논문의 차별점이다. 3. Proposed Method Self-Attention Context Module 가장 작은 feature map (B, 512, 24, 80) 크기에서 self-attention을 적용하여 non-local context 정보를 집계한다. 이를 통해 CNN으로는 포착하기 어려운 공간적으로 분리된 위치들 사이의 관계를 학습한다. ...

[논문] Representation Learning with Convtrastive Predictive Coding

Motivation Contrastive Learning은 latent space으로부터 downstream task에 유용하게 쓰일 정보를 최대한 뽑아낸다. Contrastive Learning은 여러 태스크에서 좋은 성능을 보일 수 있다. 특히 Predictive Coding과 함께히면 더 좋다. 이 논문의 중요한 직관은 signal의 서로 다른 부분 사이에서 공유되는 정보를 인코딩하여 representation learning을 하는 것이다. 고차원 데이터를 예측할 때, MSE나 CE같은 로스는 적절하지 못하다. 그리고 강력한 조건부적인 생성 모델이 필요한데, 데이터의 모든 디테일을 생성해야하는 특성 상, 계산량 오버헤드가 너무 커서 부당이 된다. 여러가지 이유로 x, c 사이의 p(x|c) 방식의 모델링은 상호간 정보를 알기에는 최적이 아니다. Related Works 셍략 ...

[논문] RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

1. Motivation Optical flow 추정은 연속 프레임 간의 픽셀 단위 움직임을 추정하는 핵심 컴퓨터 비전 과제이다. 기존의 방법들은 coarse-to-fine 방식 또는 cost volume 기반 접근을 사용하였으나, 큰 변위(large displacement)나 세밀한 구조물에서 정확도가 떨어지는 한계가 있었다. RAFT는 반복적(recurrent)인 업데이트 구조와 all-pairs correlation을 결합하여 이러한 한계를 극복한다. 2. Related Work FlowNet / PWC-Net: Coarse-to-fine warping 기반의 optical flow 추정. 큰 변위에는 강하지만 작은 구조물이나 fine detail을 놓치는 경향이 있다. SpyNet: 경량화된 coarse-to-fine 구조. Cost Volume 기반 방법들: 두 feature map 사이의 correlation을 명시적으로 계산. 탐색 범위(search radius)가 제한되는 단점이 있다. 3. Proposed Method Feature Encoder and Context Encoder 두 입력 이미지로부터 각각 feature map을 추출한다. 추가로 첫 번째 이미지에서 context feature를 추출하여 flow 업데이트에 활용한다. ...