논문 | oppenheimer1223's BLOG

[논문] Fine-grained Semantics-aware Representation Enhancement for Self-Supervised Monocular Depth Estimation

1. Motivation Self-supervised monocular depth estimation에서 photometric consistency만으로는 극복하기 어려운 한계가 존재한다. 텍스쳐가 약한 영역이나 물체 경계에서 성능 향상이 쉽지 않고, 동적 물체의 존재로 인해 pose network의 훈련도 어렵다. 이 논문은 이러한 한계를 명시적인 supervision 없이 implicit한 representation enhancement로 극복하는 방법을 제안한다. 2. Related Work SfM-Learner 계열의 self-supervised 방법만으로는 texture의 weakness를 극복하기 어렵다. 최근 연구들은 cross-domain learning으로 장면의 semantic 정보를 활용하여 depth 추정 정확도를 높이려 했다. 예를 들어 동적 물체를 제거하거나, semantic instance로부터 물체 모션을 명시적으로 통합하는 방법이 있었다. ...

[논문] Contextual Transformer Networks for Visual Recognition

Motivation 비전 태스크에서 셀프 어텐션의 계산이, 즉 공간적인 위치에서 Q, K가 서로 independent하게 계산이 되어지는 것이 단점 → context가 필요 Related Works CNN의 receptive field를 넓히는 것 → context를 잘 보긴 하지만, long range dependecy를 보지 못함 ViT, long range dependency를 보기는 하지만, independent한 Q, K의 interaction을 계산 Contribution 기존의 conventional self-attention은 서로 다른 위치간의 interaction을 잘 계산. 그러나 모든 pairwise Q-K relation은 independent함 → 풍부한 context를 보지 못함, 따라서 Conetxt Transformer 구조를 제안. ...

[논문] Self-Supervised Monocular Depth Estimation: Solving the Dynamic Object Problem by Semantic Guidance

1. Motivation Self-supervised monocular depth estimation은 LiDAR와 같은 depth label 없이 임의의 이미지 시퀀스만으로 학습할 수 있는 강력한 방법이다. 그러나 동적인 물체(dynamic objects)가 존재하는 장면에서는 photometric loss의 가정(static world assumption)이 무너지기 때문에, 움직이는 객체가 있는 영역에서 depth 추정 품질이 크게 저하된다. 2. Related Work Self-supervised depth estimation의 주요 흐름은 photometric reconstruction loss를 활용한 ego-motion과 depth의 동시 학습이다. 대표적으로 Monodepth2는 동일 속도로 움직이는 픽셀을 photometric loss 계산에서 제외하는 방법을 도입했지만, 특정 유형의 object motion에 한해서만 문제를 해결했다는 한계가 있다. ...

[논문] EDNet: Efficient Disparity Estimation with Cost Volume Combination and Attention-based Spatial Residual

1. Motivation Disparity(시차) 추정은 stereo 이미지로부터 depth를 계산하는 핵심 과제이다. 기존의 cost volume 기반 방법들은 높은 정확도를 달성하지만 계산 비용이 크다는 한계가 있다. EDNet은 Cost Volume Combination과 Attention-based Spatial Residual을 결합하여 효율적인 disparity 추정을 목표로 한다. (이 논문은 원문 노트가 미완성 상태로, 아래 내용은 논문 제목과 컨텍스트를 기반으로 재구성한 것이다.) 2. Related Work PSMNet, GwcNet: 3D convolution 기반의 cost volume 처리로 높은 정확도를 달성하지만 연산량이 많음 DispNet: Encoder-decoder 기반의 빠른 disparity 추정. 정확도보다 속도를 우선시 Attention in Stereo Matching: 최근 self-attention을 stereo matching에 적용하여 non-local context를 활용하는 연구들이 증가 3. Proposed Method Cost Volume Combination 단일 resolution의 cost volume 대신, 여러 scale의 cost volume을 조합하여 계산 효율성과 정확도를 동시에 개선한다. Cost volume을 조합함으로써 다양한 disparity range와 세밀도에서의 매칭 정보를 통합한다. ...

[논문] Self-Supervised Learning with Geometric Constraints in Monocular Video: Connecting Flow, Depth and Camera

1. Motivation 단안(monocular) 비디오에서 depth, motion, optical flow, camera intrinsic matrix를 함께 학습하는 self-supervised 모델을 제안한다(GLNet). 핵심 기여는 다음 세 가지다: Adaptive photometric loss 및 epipolar geometry loss 등 새로운 loss 제안 Camera intrinsic matrix를 예측할 수 있는 모델로 확장 → 캘리브레이션하지 않은 카메라에도 적용 가능 Online refinement 전략 2. Related Work 기존 연구들의 한계: 전통적인 feature matching 기반 SfM 연구들은 텍스처에 대한 에러가 크고, occlusion을 다루지 못함 → 정확도 이슈 딥러닝 기반 방법들은 지도 학습으로 큰 성공을 거뒀지만, LiDAR 같은 비싼 장비로 GT를 얻어야 하는 문제가 있음 USL/SSL 기반 핵심 아이디어는 두 이미지 사이의 미분 가능한 warping layer로 photometric loss를 계산하는 것이지만, dynamic object 처리에 한계가 있음 3. Proposed Method Adaptive Photometric Loss Scene reconstruction에는 두 가지 경우가 있다: ...

[논문] Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes

Motivation 너프의 스태틱 가정을 깨고 space-time 형태의 다이나믹 비디오에서 NVS를 하고자 함 Related Work Novel View Synthesis NeRF는 static scene임 (멈춰 있는 한 장면에서 MVS로 찍은 카메라 가지고 NVS) Novel Time Synthesis Temporal synthesis는 가능했지만, Space synthesis는 하지 않음 Space-Time synthesis Static 장면을 다루거나, 복잡한 기하적 관계를 풀지 못함 필요에 따라 사람의 라벨링이 요구되는 경우도 있음 Contribution NeRF와는 달리, 다이나믹 장면은 temporal domain을 포함한다. 따라서 비디오 프레임의 i도 포지션으로 입력하면 i → i+1, i-1의 scene flow [f, f’]가 출력을 하게끔 MLP 모델 디자인 ...

[논문] When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations

Motivation ViT, MLP 믹서가 어떤 경우에 레즈넷의 성능을 능가할 수 있을까? 의 고찰 ViT, MLP 믹서는 라지 스케일 트레이닝이나, 강한 데이터 arguments를 주어야 했음 모델이 인덕티브 바이어스를 포괄하기 힘들기 때문 그런데 이러한 기법 없이 레즈넷 보다 성능을 올리는 방법을 고민 Related Works 생략 Contribution ViT와 MLP 믹서의 그래디언트 필드는 매우 날카로운 로컬 미니마에 수렴한다는 것을 보여준다. (이는 레즈넷보다 몇 배 더 큼) 이러한 필드는 백프롭때 그래디언트가 누적되고, 초기 임베딩 레이어가 굉장히 큰 헤시안 행렬의 고유값을 가지면서 문제가 될 수 있음 네트워크들은 상대적으로 작은 훈련 에러를 가지고, 특히 MLP 믹서는 ViT보다 오버피팅 가능성이 있다. ViT, MLP 믹서는 레즈넷보다 훈련성이 다소 떨어진다. 컨볼루션의 translation equip과 로컬리티가 레즈넷을 로컬 미니마에서 빠져나오기 하는 역할을 할 것으로 추론하지만, 컨볼루션 프리인 ViT, MLP 믹서는 이러한 기능을 가질수가 없다. 그래서 두 모델의 훈련 기능을 향상할 필요가 있다. ...

[논문] Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Motivation 비디오에서 시간 차원은 공간 차원과 같은 방법으로 처리되었음. 비디오에서 물리적 위치가 t 프레임에 사영된 것과 t+k 프레임에 사영된 지점은 서로 무관할 수 있기 때문임. Temporal correspondence는 이러한 다이나믹 장면을 학습하기 용이하게 설계되어야 함 Related Works RAFT의 옵티컬 플로우 추정은 두 프레임의 temporal corrrespondence 문제이다. RAFT의 correlation volume은 본질적으로 attention map와 같다. Allan Jabri의 연구에서는 비디오 temporal correspondnce 문제를 contrastive random walk 문제로 정의하고 해결 위와는 다르게 trajectory attention을 통해 temporal correspondece 문제를 해결 Contribution Trajectory Attention ...

[논문] Long-Shot Temporal Contrastive Learning of Video Transformers

Motivation 비디오 트랜스포머가 기존 CNN 기반 비디오 모델들에 비해 경쟁력있는 성능을 보임 그러나 많은 파라미터와 inductive bias 부족은 대규모 데이터셋으로 학습된 강력한 사전 모델을 요구함 Related Works 생략 Contribution TimSformer vs Swin Transformer 이 논문은 스윈 트랜스포머의 속성을 비디오 도메인으로 확장하였음 Long-Shot Temporal Contrastive Learning 템포랄 도메인의 CL을 고안 레이블링이 되지 않은 비디오 B를 입력으로 받는다. 비디오 B를 랜덤하게 숏클립과 롱클립으로 샘플링해서 나눈다. 프레임의 수는 같으나, 시간 간격이 달라서 롱클립이 더 긴 범위의 비디오 표현을 담고 있다. 숏클립을 쿼리로, 롱클립을 키로 임베딩하여 InfoCE에 적용한다. 이제 롤을 바꿔서 반대의 경우로 InfoCE에 적용한다. Experiments 스트라이드 수를 고정했을때 정확도가 가장 좋다. 모든 CL 학습 방식에서, 롱 스트라이드가 숏 스트라이드보다 클 때 성능이 제일 좋다. Spacetemporal + Swin은 템포랄 정보까지 학습. 단순 프레임 레벨로 공간 정보만 학습한 비디오 스윈 트랜스포머보다 성능이 더 높음 Conclusion 스윈 트랜스포머를 temporal axis로 확장하면 성능이 더 좋다. CL에 서로 다른 템포랄 정보의 숏클립, 롱클립은 효과가 있으나, 스트라이드 수 고정이 좋음

[논문]Self-Supervised Learning of Compressed Video Representation

Motivation 효율적으로 비디오 표현 학습을 하는 방법을 고민 Related Work 이전 연구들은 비디오 프레임을 프로세싱하기 전에 JPEG 같은 형태로 디코딩하여 저장하고 representation 학습을 하였음. 이것은 스토리지를 많이 요구하고, 대규모 트레이닝에 비효율적임. Decoded frame없이 학습할 수 있었지만, supervised 기반이었지, self-supervised는 관심이 덜했음 Contribution 압측된 비디오 포맷에서 직접 비디오 표현 학습을 한다. 압축된 비디오는 두 가지 고유한 특성이 있음, 일단 GOP란? MPEG 포맷을 위해 영상 프레임의 덩어리를 가리킴 GOP(Group Of Picture) 왜 압축된 비디오가 유리할까? GOP는 몇 장의 이미지와 (I-frame), residual, less motion information이 있는 프레임도 포함한다. 프레임 레벨보다 GOP 레벨에서 더 consistency가 있는 모션 정보를 가져올 수 있다. 따라서 멀티모달 표현 학습을 할 수도 있다. (이미지, 모션 벡터, 잔차) 이를 이용해서 novel pretext task를 수행할 수 있음 ...