[논문] Content-aware Unsupervised Deep Homography Estimation and Its Enxtensions

Motivation 호모그래피는 스테레오 비전의 근본이다. 영상이 대략 회전 모션이거나 장면이 평면 표면에 가까우면 호모그래피 행렬을 근사할 수 있다. 장면이 제약 조건을 만족하면 직접 호모그래피를 계산할 수 있다. 시맨텍 어웨어하고 러버스트한 호모그래피 추정 딥러닝 알고리즘을 개발 Related Works 생략 Contribution 두 이미지를 인코더 레즈넷34 백본을 받아서 3x3, 8DoF의 호모그래피 행렬을 추정 호모그래피 추정을 위해 Triplet Loss를 사용 호모그래피 추정이 완벽하다면 호모그래피를 통한 와핑이 잘 되어야 함 그래서 와핑한 피처 혹은 이미지가 타겟 피처 또는 이미지와 잘 얼라인 되어야 함 두 번째 로스 텀은 잘 모르겠음 호모그래피 a→b에서 b→a는 identity로 레귤라이저를 추가함 Content-aware prob map 마스크를 출력하는 네트워크는 이미지 피처맵에서 어디가 중요한지를 표현한다. 이는 마치 어텐션과 같다. 그리고 RANSAC을 통해 아웃라이어를 미리 제거한 것과 같다 ...

[논문] Rethinking the Augmentation Module in Contrastive Learning

Motivation CL은 DA에 강력하게 의존하는 방법이다. 인위적인 DA는 다음과 같은 단점이 있다. 데이터 증강의 휴리스틱한 조합은 특정적인 표현 불변성을 가져다 준다. 강력한 데이터 증강은 너무 많은 불변성을 가지고 있어서 오히려 fine-grained한 다운스트림 태스크에 적합하지 않다. 따라서 이 논문은 어디서? 무엇을? 이란 질문으로 DA를 하는 방법론을 소개한다. Related Work 생략 Contribution 다양한 augmentation module 조합을 사용한다. 샴 구조는 깊이에 따라 여러 스테이지로 활용한다. 각 스테이지의 피처를 CL에 활용한다. Hierarchical augmentation invariance ...

[논문] Self-Supervised Video Representation Leraning with Motion-Contrastive Perception

Motivation CL이나 특정한 Pretext task는 비디오에서 중요하지 않은 배경에 집중하는 문제가 발생 비디오에는 모션이 있음 이 모션에 집중하기 위한 학습 방법을 제안해야함 Related Work Pretext task 방법 지오메트릭한 정보를 배우는 spatial learning clip order를 학습하는 temporal learning space-time 정보를 학습하는 spatiotemporal learning 그러나 이 방법의 단점은 비디오에 리더던시 정보가 많아서 불필요한 학습을 야기함 배경에 대하여 정적이거나 무관한 정보는 모델의 판단성을 저해할 수 있음 배경 때문에 모델의 비디오 이해도가 낮아질 수 있음 이를 보완하기 위해 옵티컬 플로우가 쓰이나 비쌈 보다 저렴한 계산을 위해 residual frame이 쓰일 수 있음 → 더 구체적인 정보를 제공함 ...

[논문] Deep Video Prior for Consistency and Propagation

Motivation 비디오 프레임간 시간 불일치성을 해결하기 위해 DVP를 implcit하게 DNN에 주는 방법을 제안 DVP가 무엇인가? 비디오를 사용한 멀티모달 태스크에서는 성능의 흔들림이 심함 → 이터레티브하게 중요도를 재할당하는 전략으로 해결 Related Work 이전 비디오 연구들은 구축된 대규모 비디오 데이터셋이 필요했음 옵티컬 플로우 같은 정보나, 단순 프레임 간 유사도를 비교하는 것만으로는 롱-텀 비디오에 적합하지 않음 이전 비디오 연구들은 멀티 모달 태스크에서 좋은 성능을 골고루 보이기 어려웠음 Contribution DVP가 무엇인가? DVP는 비디오 처리에서 임플리싯하게 비디오 일관성을 주기 위해 사용되는 성질들을 일컬음 ...

[논문] Learning Optical Flow, Depth, and Scene FLow without Real-world Labels

Motivation Depth, Sceneflow를 동시에 푸는 것은 ill-posed 문제이고, 수 많은 해가 존재한다. 먼저 옵티컬 플로우를 추정하고, 알려진 포즈와 함께 initial depth를 연산한다. 그리고 sceneflow, depth를 refinement하는 파이프라인을 제안한다. (그러니까 원 스테이지로는 하기가 힘드니 투 스테이지로 해보겠다는 의미) Related Works 비디오 기반의 SSL를 통한 3D perception 학습들은 아래의 네 가지 태스크로 나뉜다. Ego-motion estimation Monocular Depth estimation → Scale ambiguity, Static assumption 문제 발생 Opticalflow estimation Sceneflow estimation → Can not handle sceneflow from opticalflow esitmator (indirectly estimation), stereo manner at training time 모두 개별 태스크에서 우수한 성능을 보이지만, scale ambuiguity 문제가 있다. 이러한 작업들은 Ego-motion과 플로우 추정과 관련이 있지만, 결국 reprojection 모호성을 해결해기 위해 스테레오 데이터셋가 필요하다. ...

[논문] Masked Autoencoders Are Scalable Vision Learners

Motivation 입력 이미지의 패치를 랜덤으로 마스킹한 상태에서 오토인코더 모델이 복원할 수 있을까? 비대칭 형태의 인코더 - 디코더 인코더 입력은 마스크 패치를 제외하고 visible 패치를 입력, 디코더는 이 latent vector를 가지고 원래의 이미지를 복원 인코더는 표준적인 ViT이고 디코더는 트랜스포머 블록으로 구성 Related Works 마스크 오토인코더는 디노이징 오토인코더의 일반적 형태 마스킹 입력으로 표현력을 끌어올리는 방법은 버트에서 선행되었지만, 비전에서 오토인코딩으로의 진전 X 저자의 질문, 비전과 자연어 사이에서 무엇이 마스크된 오토인코딩을 만드는가? 자연어는 인간이 만들어낸 상당히 시맨틱하고 높은 정보 밀도의 신호이다. ...

[논문] Neural Scene Flow Prior

Motivation Scene Flow prior를 신경망으로 강력하게 regularizaion할 수 있는 식을 주장 Related Works 지도 학습 기반의 SF 추정은 많은 GT가 필요 → 그러나 prior가 강한 regularizer라서 필요 없음 SSL 기반 SF 추정은 도메인 스페시픽하고, 일반화 성능이 떨어짐 그리고 충분히 많은 양의 데이터가 필요함 → regularization이 약함 Contribution MLP로 구성된 네트워크에 S1, S2 간의 Forward, Backward optimazation 식을 제안 이 식의 목적은 S1, S2 사이의 distance를 최소화하는 MLP 파라미터를 찾는 것 (regularization 텀은 Laplacian regularizer) ...

[논문] PolyViT, Co-training Vision Transformers on Images, Videos and Audio

Motivation Can we train a single transformer model capable of processing multiple modalities and datasets, whilst sharing almost all of its learnable parameters? Despite recent advances across different domains and tasks, current state-ofthe-art methods train a separate model with different model parameters for each task at hand. Co-training PolyViT on multiple modalities and tasks leads to a model that is even more parameter-efficient, and learns representations that generalize across multiple domains. ...

[논문] MonoPLFlowNet: Permutohedral Lattice FlowNet for Real-Scale 3D Scene Flow Estimation with Monocular Images

Motiviation 3D scene flow는 라이다나 스테레오 환경에서만 real scale을 알 수 있음, 모노큘라 환경에서는 알지 못함 real scale을 알기 위해서는 GT 뎁스나 GT point cloud를 알아야 했음, 이 논문은 2장의 모노큘라 시퀀스로부터 real scale scene flow를 알아내기 위함임 Related Works 논문 갈래 정리: PointNet → PointNet++ // FlowNet → PWC-Net → FlowNet3D → PointPWCNet 포인트 클라우드 기반은 라이다가 필요 → 라이다는 너무 비쌈 스테레오를 이용한 방법 → 카메라칸 캘리가 필요 → 굳이? 모노큘라를 이용한 방법 → scale ambuiguity가 생김 → real scale을 복원하는 방법이 필요 모노큘라의 2D Optical flow에서 real scale 3D scene flow를 얻으려면, 리얼 스케일 뎁스 맵으로부터 리얼 스케일 3D 좌표를 얻어야 함. 최근의 SfM 모델들은 성공적으로 monocular와 optical flow의 추정을 하였지만, SfM 기반이기 때문에 scale ambuiguity가 발생 ...

[논문] Decoupled Contrastive Learning

Motivation CL의 로스에서 각 편미분에 대해 커플링되는 텀이 있음 → 이는 학습 효율성에 관여 Related Works CL은 학습에서 많은 양의 네거티브가 필요하다 → 큰 배치 사이즈를 요구로 함 → 이는 어쩔수없이 컴퓨터 리소스가 많이 필요 따라서 배치 사이즈에 민감하다. Contribution Infoloss를 각각 편미분 하였을때 공통된 텀이 포함되는 것을 보임 이 텀은 P/N 간 커플링 되는 것을 의미하고 학습 효율성에 영향을 줄 수 있음 예를 들어 N이 가깝고 P도 가까우면, N의 grad 또한 감소. 반면에 N이 멀고 P도 멀면 P를 땡겨야 하는데 P 역시 N과 커플링되어 P를 땡기질 못함 Infoloss에서 분모의 positive pair를 제거하고, 분자의 positive pair를 분리하여 식을 약간 변형 이때 positive pair에 weighted function을 주어서 직관적으로 positive pair 샘플끼리 거리가 멀면 학습해야할 것이 더 많음을 알 수 있다. Experiments 베이스라인은 SimCLR이고 베이스라인 대비, DCL를 적용한 학습이 적은 배치사이즈, 적은 큐 사이즈에서도 성능이 월등이 우위 이미지넷, STL의 실험에서 결과가 모두 좋다고 리포트 Conclusion 왜 커플링 텀을 제거하는 것이 적은 배치사이즈에서도 학습 효율성을 좋게 만들까? DCL은 모멘텀 엔코더, 라지 배치사이즈, 롱 에포크를 요구하지 않는다.