[논문] Efficient Vide Instance Segmentation via Tracklet Query and Proposal

Motivation Video Instance Segmentation 문제는 동시에 classify, segment, track을 하는 것이다. 이 태스크는 프레임 레벨 VIS보다 성능이 좋다. 그러나 리얼 타임이 아니다. VisTR이 이 문제를 해결하려 했으나, 훈련 시간이 길었다. 그리고 hand-crafted data association이 많이 필요해서 비효율적이다. Related Works 프레임 레벨 VIS tracking by segmentation 방법 복잡한 data association 알고리즘이 필요 temporal context를 추출하는게 한계가 있음 object occlusion을 핸들링하지 못함 클립 레벨 VIS clip by clip으로 segmentation and tracking 프레임 레벨 VIS보다 long range temporal context를 추출 가능 그러나 실시간성이 부족해서 속도가 느림 Contribution EfficientVIS ...

[논문] Self-Supervised Multi-Frame Monocular Scene Flow

Motivation 모노큘라 시퀀스에서 3D scene flow 추정 문제는 근본적으로 ill-posed 문제 → 현재의 정확도에는 한계가 있고, 효율성 / 리얼 타임에도 문제가 있음 (Hur의 이전 연구). 이전에 제시한 모델의 성능과 real-time 이슈를 더 끌어 올리기 위한 연구 Related Works 이전에는 이미지 2장으로 태스크를 수행함 → 그러나 multiple consecutive frame이 리얼 월드 시나리오에 더 알맞음. 물론 Joint learning을 하면서 또 multi-frame을 활용하긴 했으나, 실행 시간이 느린 문제 → 더 빠르게 만들 필요가 있음 ...

[논문] Video Object Segmentation using Space-Time Memory Networks

Motivation 준지도 학습에서 문제에 따라, 중간단계 예측과 함께 사용 가능한 정보는 풍부하다. 기존의 방법에서는 이러한 아이디어를 활용할 수 없었다. 논문은 메모리 네트워크를 통해, 가능한 모든 소수로부터 관련된 정보를 읽어 학습하고자 한다. 과거 프레임과 마스크가 외부 메모리를 형성하고, 현재 프레임이 쿼리로서 메모리 속 마스크 정보를 사용하여 세그멘테이션을 수행함 구체적으로 쿼리와 메모리는 피처 스페이스에서 매칭이 된다. (모든 space-time 픽셀 지점에서) Related Works 이전 프레임에서 형상을 추출하고 전파하는 방식 외관 변화에 더 잘 대처하나, 오클루션이나 에러 드리프트의 러버스트가 낮을 수 있다. ...

[논문] RAFT 3D, Scene Flow using Rigit-Motion

Motivation RAFT-3D는 RAFT 베이스로 scene flow, 3D motion을 추정한다. RAFT의 2D 옵티컬 플로우와는 달리, pixel-wise로 SE3 motion을 계산 Contribution 뎁스, 플로우 scene flow는 pixel-wise로 3D motion을 추정하는 태스크이다. 이는 path planning, collision avoidance, VR 등에 사용이 가능하다. DL 기반으로 scene flow를 추정하는 방법들이 있지만, 디텍션이나 세그멘테이션 모델 기반이다. 이 방법들의 단점은 아래와 같다. 세그멘트 마스크가 필요하다. 이는 사전 학습된 모델에서 기인한다. 알려지지 않은 새로운 오브젝트 모션은 유추하지 못한다. Dense-SE3는 이터레티브하게 픽셀 마다 SE3 모션을 업데이트한다. 구조 구조는 RAFT와 크게 다르지 않다. 차이점이라면 depth 이미지가 같이 pair로 들어간다는 것에서 시작한다. ...

[논문] Multi-view Optimization of Local Feature Geometry

Motivation 기존의 로컬 피처 디텍션은 싱글 이미지에서 이루어짐 → 에러가 누적되고 다운스트림 태스크에 악영향 Related Works 이전 논문들은 전통적인 방법이든 CNN 기반 방법이든, 싱글 뷰 이미지에서 로컬 피처 디텍션이 이루어졌다. 피처 매칭 단계에서 멀티 뷰를 고려하는 논문은 있지만, 저자가 아는 한, 더 정확한 키포인트 디텍팅을 위해 멀티뷰를 활용하는 사례는 없었다. Contribution 키포인트를 구성하는 그래프의 모든 엣지에 대해서 멀티뷰 refinement를 수행한다 이전 연구와 비슷하게 샴-네트워크와 코릴레이션 방법을 선택 파이널 플로우는 CNN, FCN을 통해 예측되어진다. CNN을 통해 얻은 C, H, W텐서는 C-dim의 descriptor로 해석할 수 있다. 이것을 가지고 H W H W 코릴레이션 텐서를 계산한다. (그 전에 L2 normalization 함) 코릴레이션 레이어를 포스트 프로세싱하여 로컬 피처를 aggregation하고 나서, FCN을 통해 final outputs d(u→v)를 계산한다. 이것을 어디에 활용할까? 그래프 기반 방법에 단순히 displacement를 더하는 것보다 유리하다고 하는데, 어떤 이유에서인지는 잘 모르겠다. ...

[논문] Stand-Alone Self-Attention in Vision Models

Motivation 컴퓨터 비전에서 셀프 어텐션은 피처 스케일이 충분히 작아야 가능함 → 충분히 큰 피처맵에서도 셀프 어텐션 계산이 가능할까? 그리고 글로벌 어텐션은 계산량이 너무 많음 CNN이 없이 완전히 홀로 설 수 있는 셀프 어텐션 기반의 비전 모델을 제안 Related Work 이전에는 channel-wise, spatial-wise 등의 셀프 어텐션이 등장하였고, 적은 오버 헤드로 CNN 레이어 사이에 셀프 어텐션을 끼울 수 있었음 그러나 글로벌 어텐션 특성 상, 이미지 혹은 피처맵이 충분히 다운 샘플링 되어야 함 Contribution 모든 영역에서 어텐션을 계산하지 않음 → CNN의 로컬리티를 보증하면서도 어텐션을 계산할 수 있는 구조를 제안, 계산량을 줄일 수 있음 중심 픽셀을 쿼리로 두고, 그 주변 픽셀의 로컬 영역을 키와 밸류로 두어서 어텐션을 계산 Convolution STEM은 엣지 등의 정보를 파악하는 매우 중요한 요소 그러나 이런 곳에서는 어텐션이 그렇게 효과가 없을 수도 있음, 각각 정보들이 구조화 되지 못하고 개별적이기 때문. 따라서 어텐션 모듈이 컨텍스트를 파악하기가 쉽지는 않음, 이를 위한 연구도 중요할 것 Experiments 이미지넷 분류에서 베이스라인 레즈넷에 비해, Full Attention → Conv-STEM + Attention 구조로 성능이 향상 COCO 디텍션에서 디텍션 헤드와 백본까지 제안한 어텐션으로 교체한 결과, FLOPS가 34%나 감소하고, 성능은 향상 Spatial Extent에 따른 성능에서 11x11에 비해 3x3이 FLOP가 훨씬 적어도, 성능 차이는 1% 남짓 제안한 어텐션 구조에는 relative positional encoding이 들어가는데, 가장 성능이 좋음 Conclusion 로컬 어텐션은 컴퓨터 비전에서 스테레오 매칭을 위해 사용한 코스트 볼륨 연산과 흡사한 점이 많음. 특히 글로벌 어텐션을 쓰지 않고 매우 큰 피처맵에서도 로컬 어텐션이 사용 가능한 것으로 보아, 코스트 볼륨을 사용하던 기존 연구들에 이 구조를 적용해서 생각이 가능함. 생각해보면 코스트 볼륨이 어텐션 매커니즘의 특별한 케이스라고 생각할 수도 있을듯?

[논문] Incorporating Convolution Design into Visual Transformers

Motivation 트랜스포머는 대규모 데이터셋이 있을떄 CNN 모델에 필적하는 성능을 보임. CNN의 로칼리티, 인덕티브 바이어스를 적극 활용하는 디자인의 트랜스포머 모델을 고안할 수 있을까? Related Works ViT는 대규모 이미지 데이터셋을 이용해서 CNN에 필적하는 성능을 보임 → 그러나 대규모 데이터는 컴퓨터 리소스의 요구가 크고, 훈련이 오래 걸림 DeiT는 잘 학습된 대규모 CNN 모델을 티처로 두고 KD를 통해, 비전 트랜스포머 모델을 학습시키려 고함 → 이 역시 대규모 CNN 모델을 미리 준비해야한다는 단점 트랜스포머 태생이 인덕티브 바이어스를 반영하는 것이 어렵고, 불충분한 데이터로부터의 일반화 능력이 부족함 → CNN의 특성은 weight sharing을 통한 locality, translation invariant → ViT의 로우 이미지 자체를 패치로 쓰는 것은 컨볼루션을 통한 로우 레벨 피처를 사용하지 않음 → 셀프 어텐션의 경우, long-range 디펜더시를 활용하나, CNN의 로칼리티를 오히려 무시하는 것 같음 Contribution I2T 레이어 이미지 자체를 패치로 자르지 않고, 컨브 레이어를 통하여 로우 레벨 피처를 추출하는 토큰화 레즈넷 50과 같이 섞은 하이브리드 ViT가 있지만, I2T 레이어는 매우 shallow함, 즉 가벼움 ...

[논문] Skip-Convolutions for Efficient Video Processing

Motivation 비디오는 정지된 이미지의 연속일수도 있고, 변화하는 이미지의 연속일수도 있다. 우리는 세상을 비디오로 인지 → 즉, 변화를 인지 → 변화를 느낀다는 건, 프레임간 차이 (residual)이 누적되면서 어느 임계를 넘어가서 알아채는 것. 이러한 동기로 몇 가지 연구들이 있다. (뉴로모픽, 이벤트 카메라, SNN 등등) 그러나 아직까지가 주류가 아님. Related Works 기존의 비디오 처리는 픽셀 레벨의 dense prediction을 요구하는 경우가 많음 → 모든 프레임을 모델에 넣어서 연산 프레임 수가 증가할수록 연산량 오버헤드가 리니어하게 증가 → 심지어 새로운 변화가 없어도 계산을 해야만 함 이는 실시간 처리 (오브젝트 디텍션이나 포즈 추정) 등에 좋지 않음 ...

[논문] A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning

Motivation 비디오로부터 spatio-temporal 표현의 대규모 연구를 보여준다. 최근의 네 가지 이미지 기반 프레임워크에 대한 통합된 관점과 함께, 시공간적 방법, 즉 비디오 데이터로 일반화할 수 있는 간단한 목표를 제시. 중요한 이미지 비지도 표현 학습 논문은 data augmentation을 통해 같은 이미지의 서로 다른 뷰들에서 유사도가 높은 피처를 찾아내는 것이 목표이다. Contiribtuion 그런데 비디오는 자연적인 augmentation을 줄 수 있다. 모션, deformation, occlusion, illumination 등이다. (나의 이해: 비디오의 각 프레임들이 어떤 이미지의 augmentation. 이런 것들이 이어져서 temporal consistency를 만듬) ...

[논문] VideoMoCo, Contrastive Video Representation Learning with Temporally Adversarial Examples

Motivation MoCo 구조를 비디오 도메인으로 확장 Related Works 생략 Contribution Propose temporallly adversarial learning to improve the feature representation of the encoder ConvLSTM을 통해 프레임 마스크를 출력 → Discriminator(encoder)를 통해 쿼리 피처와 프레임 피처를 출력 → 프레임이 같으면 0, 마스킹된 것은 차이가 최대 마스킹 프레임의 피처를 잘 배울 수 있도록 이 차이가 최대가 되도록 학습 Propose temporal decay to reduce the effect from historical keys in the memory queyes during contrastive learning ...