oppenheimer1223's BLOG

[논문]Self-Supervised Learning of Compressed Video Representation

Motivation 효율적으로 비디오 표현 학습을 하는 방법을 고민 Related Work 이전 연구들은 비디오 프레임을 프로세싱하기 전에 JPEG 같은 형태로 디코딩하여 저장하고 representation 학습을 하였음. 이것은 스토리지를 많이 요구하고, 대규모 트레이닝에 비효율적임. Decoded frame없이 학습할 수 있었지만, supervised 기반이었지, self-supervised는 관심이 덜했음 Contribution 압측된 비디오 포맷에서 직접 비디오 표현 학습을 한다. 압축된 비디오는 두 가지 고유한 특성이 있음, 일단 GOP란? MPEG 포맷을 위해 영상 프레임의 덩어리를 가리킴 GOP(Group Of Picture) 왜 압축된 비디오가 유리할까? GOP는 몇 장의 이미지와 (I-frame), residual, less motion information이 있는 프레임도 포함한다. 프레임 레벨보다 GOP 레벨에서 더 consistency가 있는 모션 정보를 가져올 수 있다. 따라서 멀티모달 표현 학습을 할 수도 있다. (이미지, 모션 벡터, 잔차) 이를 이용해서 novel pretext task를 수행할 수 있음 ...

[논문] Self-Supervised Learning of Non-Rigid Residual Flow and Ego-Motion

1. Motivation 기존의 많은 scene flow 연구들은 3D 모션의 static component와 dynamic component를 구분하지 않고 픽셀 레벨 translation vector를 직접 추론한다. 그러나 실제 장면에서의 3D 모션은 두 가지 성분으로 분리할 수 있다: Ego-motion = rigid motion = static motion: 관측자(카메라)의 이동으로 인한 모션 Object-motion = non-rigid motion = dynamic motion: 장면 내 물체 자체의 움직임 이 논문은 두 성분을 E2E로 분리하여 추론하고, 포인트 클라우드 시퀀스의 temporal consistency 속성을 self-supervised 학습에 활용하는 프레임워크를 제안한다. ...

[논문] FlowNet3D: Learning Scene Flow in 3D Point Clouds

1. Motivation Scene flow는 장면 내 포인트들의 3D motion field다. 이를 image plane에 투영하면 2D optical flow가 된다. 그러나 기존 대부분의 연구는 2D 표현에 기반하여 stereo 또는 RGB-D 이미지에서 optical flow와 disparity map을 별도로 추정하며, 3D scene flow를 직접 최적화하지 않는다. 이러한 방법들은 point cloud만을 입력으로 사용하는 경우에는 적용할 수 없다. FlowNet3D는 동적 환경의 point cloud에서 직접 3D scene flow를 end-to-end로 학습하는 방법을 제안한다. 2. Related Work 기존 scene flow 추정 방법들은 주로 2D 이미지(RGB-D, stereo)를 입력으로 하며, optical flow와 depth/disparity를 별도로 추정한 뒤 결합하는 방식을 사용하였다. PointNet++과 같은 point cloud deep learning 방법이 등장하면서, 3D point cloud에서 직접 특징을 학습하는 것이 가능해졌다. FlowNet3D는 이 방향을 scene flow 추정으로 확장한다. ...

[논문] Every Pixel Counts: Unsupervised Geometry Learning with Holistic 3D Motion Understanding

1. Motivation 단안(monocular) 비디오에서 geometry와 motion을 unsupervised 방식으로 학습하는 것이 목표다. 특히 움직이는 물체를 고려하기 위해 단순한 static scene 가정을 넘어, 픽셀 레벨에서 3D Motion을 전체적으로(holistically) 이해하는 프레임워크를 제안한다. 2. Related Work 기존의 unsupervised depth/motion 학습 방법들은 static scene 가정에 기반하여, 독립적으로 움직이는 물체(dynamic object)를 제대로 다루지 못한다. 움직이는 물체 영역은 photometric loss의 위반을 일으키며, 이를 무시하거나 별도의 mask로 처리하는 방식은 정보 손실을 초래한다. 3. Proposed Method 전체 구조 네트워크는 세 가지 서브네트워크로 구성된다: ...

[논문] FlowNet: Learning Optical Flow with Convolutional Networks

1. Motivation Optical Flow는 연속한 두 Frame 사이에서 각 Pixel의 Motion을 나타내는 Vector Map이다. 비디오의 인접한 두 프레임(t-1 frame, t frame)이 있을 때, t-1 frame의 각 픽셀이 t frame에서 어디로 이동했는지를 벡터로 표현한다. Video에서 Motion을 분석하는 일은 매우 중요하기 때문에, Optical Flow 추정은 컴퓨터 비전에서 핵심 문제 중 하나다. FlowNet은 이 문제를 CNN(Convolutional Neural Network)으로 end-to-end 학습하는 최초의 시도 중 하나다. 2. Related Work 기존의 Optical Flow 추정 방법들은 주로 전통적인 에너지 최소화(energy minimization) 방식에 기반하였다. 대표적으로 Horn-Schunck, Lucas-Kanade 등의 알고리즘이 있으며, 이들은 밝기 일정성(brightness constancy) 가정 하에 최적화를 수행한다. 그러나 이러한 방법들은 큰 변위(large displacement)나 복잡한 장면에서 한계를 보인다. ...

[논문] Single Image Depth Prediction with Wavelet Decomposition

1. Motivation Monocular depth estimation에서 정확한 뎁스를 추정하기 위한 새로운 방법으로 웨이블릿 분해(wavelet decomposition)를 기반으로 한 접근법을 제안한다. 비디오나 장면 이미지는 전체를 지배하는 flat한 저주파수 영역과, 빠르게 변하는 고주파수 영역(엣지, 세부 구조)으로 구성된다. 특히 뎁스 추정에서 중요한 것은 depth edge의 gradient 부분인데, 이 고주파수 영역은 굉장히 sparse하다. 이 sparse한 엣지 부분에 집중하는 계산이 가능하다면 더 효율적이고 정확한 뎁스 추정이 가능하다. 2. Related Work 기존의 dense convolution 기반 depth estimation은 비효율적이고 연산 비용이 크다. 효율적인 CNN 연산을 위한 방법들(Depthwise Separable, Inverted Residual, Pointwise Group Convolution 등)이 개발되어 왔지만, 뎁스 추정에서 wavelet을 활용한 연구는 제한적이었다. ...

[논문] EdgeConv with Attention Module for Monocular Depth Estimation

1. Motivation Monocular depth estimation에서 물체의 경계(edge) 및 구조적 정보를 정확히 포착하는 것이 성능 향상의 핵심이다. 기존의 CNN 기반 방법들은 글로벌한 컨텍스트 표현에 초점을 맞추다 보니 로컬한 엣지 구조를 충분히 활용하지 못하는 경향이 있었다. 2. Related Work EdgeConv는 원래 포인트 클라우드 처리에서 제안된 연산으로, 이웃 포인트들 간의 관계를 그래프 형태로 모델링한다. 이를 2D 이미지 depth estimation에 적용하여 엣지의 구조적 정보를 활용하는 연구가 시도되어 왔다. 3. Proposed Method 패치 단위로 잘라낸 임베딩 매트릭스에 대해 EdgeConv를 계산함으로써, 엣지의 구조적 정보를 명시적으로 모델링한다. 여기에 더하여 EdgeConv-Attention 모듈을 제안하여 중요한 엣지 영역에 집중적으로 어텐션을 부여한다. ...

[논문] When Does Contrastive Visual Representation Learning Work

Conclusion Contrastive Learning이 언제 유효하고, 또 언제 성능이 안 좋은지에 대해서 4가지 관점으로 고민 데이터 양, 데이터 도메인, 데이터 품질, 태스크 세분화 50만 장을 넘는 데이터 이점은 그리 많지 않음 다른 도메인으로부터 pretraining image를 추가하는 것은 general representation을 이끌어내지 않음 corrupted pretraining image → disparate impact on supervised pretraining CL lags far behind SL on fine-grained visual task

[논문] Efficient Vide Instance Segmentation via Tracklet Query and Proposal

Motivation Video Instance Segmentation 문제는 동시에 classify, segment, track을 하는 것이다. 이 태스크는 프레임 레벨 VIS보다 성능이 좋다. 그러나 리얼 타임이 아니다. VisTR이 이 문제를 해결하려 했으나, 훈련 시간이 길었다. 그리고 hand-crafted data association이 많이 필요해서 비효율적이다. Related Works 프레임 레벨 VIS tracking by segmentation 방법 복잡한 data association 알고리즘이 필요 temporal context를 추출하는게 한계가 있음 object occlusion을 핸들링하지 못함 클립 레벨 VIS clip by clip으로 segmentation and tracking 프레임 레벨 VIS보다 long range temporal context를 추출 가능 그러나 실시간성이 부족해서 속도가 느림 Contribution EfficientVIS ...

[논문] Self-Supervised Multi-Frame Monocular Scene Flow

Motivation 모노큘라 시퀀스에서 3D scene flow 추정 문제는 근본적으로 ill-posed 문제 → 현재의 정확도에는 한계가 있고, 효율성 / 리얼 타임에도 문제가 있음 (Hur의 이전 연구). 이전에 제시한 모델의 성능과 real-time 이슈를 더 끌어 올리기 위한 연구 Related Works 이전에는 이미지 2장으로 태스크를 수행함 → 그러나 multiple consecutive frame이 리얼 월드 시나리오에 더 알맞음. 물론 Joint learning을 하면서 또 multi-frame을 활용하긴 했으나, 실행 시간이 느린 문제 → 더 빠르게 만들 필요가 있음 ...