논문 | oppenheimer1223's BLOG

[논문] RAFT 3D, Scene Flow using Rigit-Motion

Motivation RAFT-3D는 RAFT 베이스로 scene flow, 3D motion을 추정한다. RAFT의 2D 옵티컬 플로우와는 달리, pixel-wise로 SE3 motion을 계산 Contribution 뎁스, 플로우 scene flow는 pixel-wise로 3D motion을 추정하는 태스크이다. 이는 path planning, collision avoidance, VR 등에 사용이 가능하다. DL 기반으로 scene flow를 추정하는 방법들이 있지만, 디텍션이나 세그멘테이션 모델 기반이다. 이 방법들의 단점은 아래와 같다. 세그멘트 마스크가 필요하다. 이는 사전 학습된 모델에서 기인한다. 알려지지 않은 새로운 오브젝트 모션은 유추하지 못한다. Dense-SE3는 이터레티브하게 픽셀 마다 SE3 모션을 업데이트한다. 구조 구조는 RAFT와 크게 다르지 않다. 차이점이라면 depth 이미지가 같이 pair로 들어간다는 것에서 시작한다. ...

[논문] M4Depth: A Motion-Based Approach for Monocular Depth Estimation on Video Sequences

1. Motivation 자율주행처럼 카메라 모션이 제약되는 환경에서는 depth estimation(DE) 태스크의 문제 복잡도가 상대적으로 낮다. 그러나 드론처럼 6-DoF 자유도를 가진 환경에서도 동일한 방식이 잘 동작할 것이라고 보장하기 어렵다. Temporal 정보를 활용하는 경우, DE 문제는 삼각 측량(triangulation) 문제로 볼 수 있다. 이때 카메라 모션 정보를 적극적으로 활용한다면 더 정확한 뎁스 추정이 가능하다는 것이 이 논문의 핵심 동기다. 2. Related Work 이전의 실험들은 대부분 KITTI와 같은 자율주행 데이터셋에 한정되어 있었다. 자율주행 환경은 카메라 모션이 전진 방향으로 제약되므로 문제 자체의 복잡도가 낮다. 반면 드론처럼 6-DoF의 자유로운 모션을 갖는 환경에서의 연구는 부족했다. ...

[논문] Multi-view Optimization of Local Feature Geometry

Motivation 기존의 로컬 피처 디텍션은 싱글 이미지에서 이루어짐 → 에러가 누적되고 다운스트림 태스크에 악영향 Related Works 이전 논문들은 전통적인 방법이든 CNN 기반 방법이든, 싱글 뷰 이미지에서 로컬 피처 디텍션이 이루어졌다. 피처 매칭 단계에서 멀티 뷰를 고려하는 논문은 있지만, 저자가 아는 한, 더 정확한 키포인트 디텍팅을 위해 멀티뷰를 활용하는 사례는 없었다. Contribution 키포인트를 구성하는 그래프의 모든 엣지에 대해서 멀티뷰 refinement를 수행한다 이전 연구와 비슷하게 샴-네트워크와 코릴레이션 방법을 선택 파이널 플로우는 CNN, FCN을 통해 예측되어진다. CNN을 통해 얻은 C, H, W텐서는 C-dim의 descriptor로 해석할 수 있다. 이것을 가지고 H W H W 코릴레이션 텐서를 계산한다. (그 전에 L2 normalization 함) 코릴레이션 레이어를 포스트 프로세싱하여 로컬 피처를 aggregation하고 나서, FCN을 통해 final outputs d(u→v)를 계산한다. 이것을 어디에 활용할까? 그래프 기반 방법에 단순히 displacement를 더하는 것보다 유리하다고 하는데, 어떤 이유에서인지는 잘 모르겠다. ...

[논문] Stand-Alone Self-Attention in Vision Models

Motivation 컴퓨터 비전에서 셀프 어텐션은 피처 스케일이 충분히 작아야 가능함 → 충분히 큰 피처맵에서도 셀프 어텐션 계산이 가능할까? 그리고 글로벌 어텐션은 계산량이 너무 많음 CNN이 없이 완전히 홀로 설 수 있는 셀프 어텐션 기반의 비전 모델을 제안 Related Work 이전에는 channel-wise, spatial-wise 등의 셀프 어텐션이 등장하였고, 적은 오버 헤드로 CNN 레이어 사이에 셀프 어텐션을 끼울 수 있었음 그러나 글로벌 어텐션 특성 상, 이미지 혹은 피처맵이 충분히 다운 샘플링 되어야 함 Contribution 모든 영역에서 어텐션을 계산하지 않음 → CNN의 로컬리티를 보증하면서도 어텐션을 계산할 수 있는 구조를 제안, 계산량을 줄일 수 있음 중심 픽셀을 쿼리로 두고, 그 주변 픽셀의 로컬 영역을 키와 밸류로 두어서 어텐션을 계산 Convolution STEM은 엣지 등의 정보를 파악하는 매우 중요한 요소 그러나 이런 곳에서는 어텐션이 그렇게 효과가 없을 수도 있음, 각각 정보들이 구조화 되지 못하고 개별적이기 때문. 따라서 어텐션 모듈이 컨텍스트를 파악하기가 쉽지는 않음, 이를 위한 연구도 중요할 것 Experiments 이미지넷 분류에서 베이스라인 레즈넷에 비해, Full Attention → Conv-STEM + Attention 구조로 성능이 향상 COCO 디텍션에서 디텍션 헤드와 백본까지 제안한 어텐션으로 교체한 결과, FLOPS가 34%나 감소하고, 성능은 향상 Spatial Extent에 따른 성능에서 11x11에 비해 3x3이 FLOP가 훨씬 적어도, 성능 차이는 1% 남짓 제안한 어텐션 구조에는 relative positional encoding이 들어가는데, 가장 성능이 좋음 Conclusion 로컬 어텐션은 컴퓨터 비전에서 스테레오 매칭을 위해 사용한 코스트 볼륨 연산과 흡사한 점이 많음. 특히 글로벌 어텐션을 쓰지 않고 매우 큰 피처맵에서도 로컬 어텐션이 사용 가능한 것으로 보아, 코스트 볼륨을 사용하던 기존 연구들에 이 구조를 적용해서 생각이 가능함. 생각해보면 코스트 볼륨이 어텐션 매커니즘의 특별한 케이스라고 생각할 수도 있을듯?

[논문] Incorporating Convolution Design into Visual Transformers

Motivation 트랜스포머는 대규모 데이터셋이 있을떄 CNN 모델에 필적하는 성능을 보임. CNN의 로칼리티, 인덕티브 바이어스를 적극 활용하는 디자인의 트랜스포머 모델을 고안할 수 있을까? Related Works ViT는 대규모 이미지 데이터셋을 이용해서 CNN에 필적하는 성능을 보임 → 그러나 대규모 데이터는 컴퓨터 리소스의 요구가 크고, 훈련이 오래 걸림 DeiT는 잘 학습된 대규모 CNN 모델을 티처로 두고 KD를 통해, 비전 트랜스포머 모델을 학습시키려 고함 → 이 역시 대규모 CNN 모델을 미리 준비해야한다는 단점 트랜스포머 태생이 인덕티브 바이어스를 반영하는 것이 어렵고, 불충분한 데이터로부터의 일반화 능력이 부족함 → CNN의 특성은 weight sharing을 통한 locality, translation invariant → ViT의 로우 이미지 자체를 패치로 쓰는 것은 컨볼루션을 통한 로우 레벨 피처를 사용하지 않음 → 셀프 어텐션의 경우, long-range 디펜더시를 활용하나, CNN의 로칼리티를 오히려 무시하는 것 같음 Contribution I2T 레이어 이미지 자체를 패치로 자르지 않고, 컨브 레이어를 통하여 로우 레벨 피처를 추출하는 토큰화 레즈넷 50과 같이 섞은 하이브리드 ViT가 있지만, I2T 레이어는 매우 shallow함, 즉 가벼움 ...

[논문] Towards Better Generalization: Joint Depth-Pose Learning without PoseNet

1. Motivation Self-supervised monocular depth estimation에서는 일반적으로 별도의 PoseNet을 사용하여 카메라 포즈를 추정한다. 그러나 PoseNet은 훈련 데이터의 도메인에 과적합되기 쉬워 일반화(generalization) 성능이 떨어진다. 이 논문은 PoseNet 없이 두 모노큘라 이미지로부터 Fundamental Matrix를 이용해 포즈를 추정하고, 이를 depth 추정에 활용하는 방법을 제안한다. 2. Related Work Monodepth2, SfMLearner 등: PoseNet을 depth network와 함께 joint로 학습하는 방식. Pose 추정이 특정 데이터셋에 편향될 수 있음. 8-point Algorithm / RANSAC: 고전적인 structure-from-motion 기법으로, 대응점으로부터 Fundamental Matrix를 robust하게 추정. Triangulation: 두 카메라 뷰의 대응점을 이용하여 3D 포인트를 복원하는 기법. 3. Proposed Method 1단계: Optical Flow로부터 포즈 추정 두 모노큘라 이미지에서 optical flow를 추정하고, 대응점으로부터 8-point RANSAC을 통해 Fundamental Matrix $F$를 계산한다. 이를 분해하여 relative pose $[R|t]$를 얻는다. ...

[논문] Toward Hierarchical Self-Supervised Monocular Absolute Depth Estimation for Autonomous Driving Applications

1. Motivation Self-supervised monocular depth estimation은 scale ambiguity 문제로 인해 relative depth만을 추정할 수 있다. 자율주행 응용에서는 실제 미터 단위의 absolute scale이 필요하다. 이 논문은 Monodepth2를 베이스라인으로, 추가적인 supervision 없이 relative depth에서 absolute depth로 복원하는 방법을 제안한다. 2. Related Work Monodepth2: SSL 기반 monocular depth estimation의 강력한 베이스라인이나, up-to-scale 결과를 출력한다. Scale 복원 방법들: 일부 방법은 카메라 높이나 IMU 정보 등의 추가 센서를 활용하지만, 이는 추가 비용을 요구한다. 이 논문은 이미지에서 자동으로 ground plane을 감지하여 카메라 높이를 추정하는 방식으로 scale factor를 계산한다. 3. Proposed Method Ground Plane 감지를 통한 Scale 복원 핵심 아이디어는 “예측된 depth map에서 ground plane에 해당하는 픽셀들을 찾고, 이들로부터 카메라 높이를 추정하여 scale factor를 계산한다"는 것이다. ...

[논문] Self-Supervised Monocular Scene Flow Estimation

1. Motivation Scene flow 추정을 위한 기존 센서 기반 방법들은 각각의 한계가 있다: stereo는 캘리브레이션이 필요하고, LiDAR는 비싸며, RGB-D는 사용 환경이 제한적이다. 단안(monocular) 카메라만으로 scene flow를 추정할 수 있을까? Monocular 추정은 2D → 3D로 가는 ill-posed 문제이다. 이 논문은 반대 방향, 즉 3D → 2D로의 projection을 활용하면 더 정확한 추정이 가능하다는 inverse problem 관점으로 접근한다. 2. Related Work Single-view monocular 접근의 한계: Ill-posed된 문제로 픽셀 레벨의 3D 모션을 인접 프레임들로부터 추정해야 함 성능과 real-time 제약 사이에서 trade-off 존재 Multi-module joint learning 방식: ...

[논문] Learning Rigidity in Dynamic Scenes with a Moving Camera for 3D Motion Field Estimation

1. Motivation Depth, Optical Flow, Motion 추정, Video Segmentation 문제는 사실 기하적 제약 조건 하에 서로 커플링되어 있다는 인사이트에서 출발한다. 각각의 문제를 독립적으로 푸는 것이 아니라, 하나의 솔루션이 다른 솔루션들을 더 잘 하게 만들 수 있는 공동 학습(joint learning) 전략이 필요하다. 이 논문은 각 모델들이 서로 **경쟁적(competitive)이면서도 협력적(collaborative)**으로 작동하는 사이클릭 학습 프레임워크(Competitive Collaboration, CC)를 제안한다. 2. Related Work 기존 연구들의 한계점은 다음과 같다. Depth + Motion 커플링 학습: Static scene 가정에서만 성립하며, static scene으로 설명할 수 없는 영역은 explainability mask를 통해 무시한다. Optical Flow 학습: Occlusion을 다루기 힘들고 depth 성능이 나쁘다. 공통적인 문제는 독립적으로 움직이는 물체(사람, 자동차 등)를 세그멘트하지 않는다는 점이다. 레이블이 없는 데이터셋은 모델 가정에 맞지 않을 수 있으며, 이는 훈련에 나쁜 영향을 준다. 예를 들어 depth, motion 네트워크를 위한 데이터는 독립적으로 움직이는 물체를 포함하지 않아야 하며, optical flow를 위한 데이터셋은 occlusion을 포함하지 않아야 한다. ...

[논문] PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume

1. Motivation FlowNet, FlowNet 2.0은 정확도는 높지만 모델이 지나치게 크고 느리다는 문제가 있다. PWC-Net은 이를 해결하기 위해 FlowNet 2.0 대비 17배 더 작고, 학습이 용이하며, 초당 프레임 처리 속도가 더 빠른 네트워크를 설계한다. 핵심 아이디어는 이름 그대로 세 가지 원리의 조합이다: Pyramid(피라미드 피처), Warping(이미지 와핑), Cost Volume(코스트 볼륨). 2. Related Work 전통적인 Optical Flow 방법들(예: SIFT Flow, EpicFlow)은 coarse-to-fine 방식의 image pyramid를 활용하였다. 딥러닝 기반 방법인 FlowNet 시리즈는 end-to-end 학습을 가능하게 하였으나 대용량 모델이라는 단점이 있다. PWC-Net은 전통적 방법의 원리를 딥러닝 아키텍처에 통합하여 경량화와 정확도를 동시에 달성한다. ...