논문 | oppenheimer1223's BLOG

[논문] Neural Scene Flow Prior

Motivation Scene Flow prior를 신경망으로 강력하게 regularizaion할 수 있는 식을 주장 Related Works 지도 학습 기반의 SF 추정은 많은 GT가 필요 → 그러나 prior가 강한 regularizer라서 필요 없음 SSL 기반 SF 추정은 도메인 스페시픽하고, 일반화 성능이 떨어짐 그리고 충분히 많은 양의 데이터가 필요함 → regularization이 약함 Contribution MLP로 구성된 네트워크에 S1, S2 간의 Forward, Backward optimazation 식을 제안 이 식의 목적은 S1, S2 사이의 distance를 최소화하는 MLP 파라미터를 찾는 것 (regularization 텀은 Laplacian regularizer) ...

[논문] PolyViT, Co-training Vision Transformers on Images, Videos and Audio

Motivation Can we train a single transformer model capable of processing multiple modalities and datasets, whilst sharing almost all of its learnable parameters? Despite recent advances across different domains and tasks, current state-ofthe-art methods train a separate model with different model parameters for each task at hand. Co-training PolyViT on multiple modalities and tasks leads to a model that is even more parameter-efficient, and learns representations that generalize across multiple domains. ...

[논문] MonoPLFlowNet: Permutohedral Lattice FlowNet for Real-Scale 3D Scene Flow Estimation with Monocular Images

Motiviation 3D scene flow는 라이다나 스테레오 환경에서만 real scale을 알 수 있음, 모노큘라 환경에서는 알지 못함 real scale을 알기 위해서는 GT 뎁스나 GT point cloud를 알아야 했음, 이 논문은 2장의 모노큘라 시퀀스로부터 real scale scene flow를 알아내기 위함임 Related Works 논문 갈래 정리: PointNet → PointNet++ // FlowNet → PWC-Net → FlowNet3D → PointPWCNet 포인트 클라우드 기반은 라이다가 필요 → 라이다는 너무 비쌈 스테레오를 이용한 방법 → 카메라칸 캘리가 필요 → 굳이? 모노큘라를 이용한 방법 → scale ambuiguity가 생김 → real scale을 복원하는 방법이 필요 모노큘라의 2D Optical flow에서 real scale 3D scene flow를 얻으려면, 리얼 스케일 뎁스 맵으로부터 리얼 스케일 3D 좌표를 얻어야 함. 최근의 SfM 모델들은 성공적으로 monocular와 optical flow의 추정을 하였지만, SfM 기반이기 때문에 scale ambuiguity가 발생 ...

[논문] Unsupervised Monocular Depth Learning with Integrated Intrinsics and Spatio-Temporal Constraints

1. Motivation Self-supervised monocular depth estimation에서 카메라 intrinsic matrix는 대부분 사전에 알려져 있다고 가정된다. 그러나 실제 환경에서는 카메라 파라미터를 항상 알 수 없는 경우가 많다. 이 논문은 알려지지 않은 카메라 파라미터를 네트워크가 스스로 예측하도록 하고, 이를 손실 함수에 통합하는 방법을 제안한다. 2. Related Work 관련된 선행 연구로는 다음이 있다: [12] Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unknown Cameras: 카메라 파라미터를 모르는 상황에서의 depth 학습을 다룬 연구 [30] Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction [31] UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning 이 연구들은 카메라 파라미터를 unknown으로 두거나, depth와 pose를 동시에 학습하는 방향을 탐구했다. ...

[논문] Domain Adaptive Semantic Segmentation with Self-Supervised Depth Estimation

1. Motivation Unsupervised Domain Adaptation(UDA)은 레이블링된 소스 도메인 데이터와 레이블 없는 타겟 도메인 데이터를 사용하여 타겟 도메인에서의 task 성능을 높이는 문제다. Semantic segmentation의 domain adaptation에서, depth estimation과 같은 보조 정보를 활용하면 도움이 된다. Depth가 제공하는 기하학적 prior(하늘은 멀고, 차로와 보도는 flat하다 등)는 어느 도메인에서든 robust한 feature를 제공하기 때문이다. 2. Related Work 기존 연구들은 소스 도메인(합성 데이터)의 depth GT를 적극 활용했다. 합성 데이터에서는 depth GT를 쉽게 얻을 수 있기 때문이다. 그러나 타겟 도메인(실제 데이터)의 depth GT는 얻기 어렵기 때문에, 타겟 도메인의 뎁스 정보를 활용하는 연구는 부족했다. ...

[논문] Attention Meets Geometry: Geometry Guided Spatial-Temporal Attention for Consistent Self-Supervised Monocular Depth Estimation

1. Motivation Self-supervised monocular depth estimation에서 동적 물체나 occlusion이 존재할 때 일관된(consistent) 뎁스 추정이 어렵다. 기하학적 정보(geometry)를 어텐션 메커니즘에 명시적으로 통합하면 일관성 있는 뎁스 추정을 달성할 수 있다는 것이 이 논문의 핵심 아이디어다. 2. Related Work Photometric consistency 기반의 self-supervised 방법들은 rigid scene 가정에 의존한다. 어텐션 메커니즘을 뎁스 추정에 적용한 연구들이 있었지만, 기하학적 정보를 어텐션의 가이던스로 직접 활용한 시도는 제한적이었다. Optical flow와 scene flow를 활용한 temporal consistency 연구도 관련 맥락을 공유한다. ...

[논문] Decoupled Contrastive Learning

Motivation CL의 로스에서 각 편미분에 대해 커플링되는 텀이 있음 → 이는 학습 효율성에 관여 Related Works CL은 학습에서 많은 양의 네거티브가 필요하다 → 큰 배치 사이즈를 요구로 함 → 이는 어쩔수없이 컴퓨터 리소스가 많이 필요 따라서 배치 사이즈에 민감하다. Contribution Infoloss를 각각 편미분 하였을때 공통된 텀이 포함되는 것을 보임 이 텀은 P/N 간 커플링 되는 것을 의미하고 학습 효율성에 영향을 줄 수 있음 예를 들어 N이 가깝고 P도 가까우면, N의 grad 또한 감소. 반면에 N이 멀고 P도 멀면 P를 땡겨야 하는데 P 역시 N과 커플링되어 P를 땡기질 못함 Infoloss에서 분모의 positive pair를 제거하고, 분자의 positive pair를 분리하여 식을 약간 변형 이때 positive pair에 weighted function을 주어서 직관적으로 positive pair 샘플끼리 거리가 멀면 학습해야할 것이 더 많음을 알 수 있다. Experiments 베이스라인은 SimCLR이고 베이스라인 대비, DCL를 적용한 학습이 적은 배치사이즈, 적은 큐 사이즈에서도 성능이 월등이 우위 이미지넷, STL의 실험에서 결과가 모두 좋다고 리포트 Conclusion 왜 커플링 텀을 제거하는 것이 적은 배치사이즈에서도 학습 효율성을 좋게 만들까? DCL은 모멘텀 엔코더, 라지 배치사이즈, 롱 에포크를 요구하지 않는다.

[논문] SOFT: Softmax-free Transformer with Linear Complexity

형식에 자유로운 간단 요약 NLP에서 리니어리티한 어텐션 게산은 비주얼 태스크에서 이론적으로, 실험적으로 어울리지 않음 기존의 리니어리티 어텐션 계산 한게는 소프트맥스를 고집하는 것에 있음 nomalization scaled dot-product 연산이 아니라, 가우시안 커널을 사용함 (왜?) 가우시안 커널로 대체하면, 어텐션 매트릭스를 low rank decomposition 가능하게 함 어떻게 근사하는지는 걱정마라, 뉴턴-랩슨 방법을 통한 무어 펜로즈 연산이 근사의 신뢰성을 보장한다. softmax는 어텐션에서 사실상 선택의 영역, 아무도 의심하지 않았음 그러나 선형화에 어울리는 연산이 아님 셀프 어텐션의 소프트맥스를 가우시안 커널로 대체 가우시안 커널 with 셀프 어텐션은 대칭임 모든 행렬이 0 ~ 1 사이 범위에 있음 대각 값은 가장 큰 값 (자기 자신과의 차이가 0이므로 가장 큼), 대부분 다른 페어는 0에 가까움 positive defiinite kernel이므로 gram matrix로 간주 가능 -> 선형화 없이 가우시안 커널 기반 셀프 어텐션을 사용하면 트랜스포머가 수렴에 실패하는 것을 발견 이런 어려움 때문에 소프트맥스 어텐션이 대중적인지 (잘 되니까 사용한다의 의미) 수렴과 쿼드라틱 복잡도를 해결하기 위해, matrix decomposition을 사용 Nystrom method를 low rank decomposition 방법으로 사용 (이 방법은 gram matrix decomposition을 위한 것) 내가 모르는 부분 왜 low rank decomposition이 선형화에 필요한지? 컴플렉시티를 왜 줄일수 있는지?

[논문] Non Deep Networks

Motivation DNN의 깊이가 깊어지면 단점이 많음 → 레이턴시가 길어지기 때문에 빠른 반응을 필요로 하는 애플리케이션이 부적합 어떻게 하면 얕은 깊이의 DNN으로도 충분한 성능을 낼 수 있을까? → 해답은 패러렐한 뉴럴넷 구성으로 성능을 낼 수 있다. Related Works 생략 Contribution 구체적으로 ~10 레이어, ~12 레이어까지 적절함을 말한다. VGG 스타일의 블록을 사용한다. (구체적으로 Rep-VGG을 빌리지만, 목적에 맞게 조금 수정) 제한된 네트워크 깊이로 receptive field가 좁다. 이를 해결하기 위해, Squeeze-Exicitation 레이어에 기반한 SSE 레이어를 추가하였다. ...

[논문] Unsupervised Monocular Depth Learning in Dynamic Scenes

1. Motivation 지도 학습 기반 depth estimation은 방대한 레이블링이 필요하다. SfM(Structure from Motion) 모델은 2-view 기반으로 scene geometry를 이해하지만, texture, occlusion, 그리고 moving objects 문제가 남아 있다. 동적 물체에 대해서는 semantic 정보를 auxiliary network에 주어 모션을 학습하는 방법도 있지만, 과연 semantic signal이 반드시 필요한지에 대한 의문이 있다. 이 논문은 그 어떤 semantic signal도, stereo도, GT도 없이 dynamic scene의 depth를 비지도 학습으로 풀고자 한다. 2. Related Work Monodepth2는 동일한 속도로 움직이는 static pixel들을 photometric loss 계산에서 제외했다. 이를 제외하지 않으면, moving object를 머나먼 배경(무한한 depth)으로 추론하는 “hole” 문제가 발생할 수 있기 때문이다. 그러나 monodepth2는 특정 유형의 object motion에 한해서만 문제를 해결했다는 한계가 있다. ...