[논문] Survey: Efficient Large Language Models

개요 대규모 언어 모델은 자연어 이해, 생성, 복잡한 추론과 같은 작업에서 뛰어난 능력을 보여주었다. 그러나 대규모 언어 모델은 막대한 하드웨어 리소스가 필요하고, 효율성을 위한 기술 개발의 니즈가 발생하였다. 이 기술 동향은 효율적인 대규모 언어 모델을 위해 몇 가지 기술 분류와 최근 동향을 제안한다. Model Compression Weight-Only Quantization (PTQ) GPTQ: Accurate Quantization for Generative Pre-trained Transformers, [Paper] [Code] ICLR, 2023 QuIP: 2-Bit Quantization of Large Language Models With Guarantees, [Paper] [Code] arXiv, 2023...

[논문] ICCV 2023 관심 논문 리스트업

ICCV 2023 ICCV 2023 Link Papers ICCV 2023이 열리고 있다. NeRF, Multimodal/VQA, Model Compression 위주로 트래킹한다. (일부 특이한 연구도 포함) Neural Radiance Fields NeRF-MS: Neural Radiance Fields with Multi-Sequence Peihao Li et al. Re-ReND: Real-time Rendering of NeRFs across Devices Sara Rojas et al. CLNeRF: Continual Learning Meets NeRF Zhipeng Cai, Matthias Muller Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction Hansheng Chen et al. SceneRF: Self-Supervised Monocular 3D Scene Reconstruction with Radiance Fields...

[논문] Survey: Large Language Models Compression

대규모 언어 모델의 경량화 동향 Abstract LLM은 거대한 크기와 계산량으로 인해, 리소스 제한적인 환경에서의 배포를 어렵게 만듬 LLM의 압축이 중요한 분야임. 이 서베이는 LLM 압축 기술의 많은 자료를 제공함 Quantization, Pruning, KD 등 다양한 방법론을 탐구하며, 최신 연구와 접근법을 보여줌 압축된 LLM을 평가하기 위한 메트릭에 대한 조사도 진행함 Introduction & Method 대규모 언어 모델은 다양한 태스크에서 뛰어난 능력을 보여주고 있다. 그럼에도 모델의 방대한 크기와 요구되는 계산량때문에 배포에서 많은 어려움이 따른다. 2020년의 GPT-175B 모델은 1,750억 개 파라미터이다....

[논문] Survey: Large Language Models

LLM 동향 LLM 모델 그 자체부터 응용/생산성을 위한 갖가지 방법을 섞은 모델, 기술들이 계속 나오고 있다. 그러다가 근래에는 그 정도가 사그라든 느낌이 드는데, 이 틈이 딱 공부하기 좋은 시기라고 생각한다. LLM에 관련한 모든 논문은 볼 수 없어도, 히스토리나 최근의 동향을 볼 수 있는 서베이 논문이 많이 나와서 리스트업한다. 시간날 때 읽어보면 각 분야의 개별 연구자 및 개발자들이 어떤 시각으로 LLM을 활용하거나 바라보는지 최신 연구들을 추적할 기회이다. Large Language Models Survey on Large Language Models...

[논문] ICML 2023 관심 논문 리스트업

ICML 2023 Papers ICML 2023이 열리고 있다. Distillation, Quantization, HW-aware Deep Learning 위주로 트래킹 중이다. COMCAT: Towards Efficient Compression and Customization of Attention-Based Vision Models Jinqi Xiao, Miao Yin, Yu Gong, Xiao Zang, Jian Ren, Bo Yuan DIVISION: Memory Efficient Training via Dual Activation Precision Guanchu Wang, Zirui Liu, Zhimeng Jiang, Ninghao Liu, Na Zou, Xia Hu Fast Private Kernel Density Estimation via Locality Sensitive Quantization Tal Wagner, Yonatan Naamad, Nina Mishra...

[논문] Pruning vs Quantization: Which is Better?

Paper Link Andrey Kuzmin et al (Qualcomm AI Research) Introduction 이 논문은 딥러닝 모델 압축에서 Quantization과 Pruning이 무엇이 어떤 경우에 더 우수한지의 정량적 실험 결과를 리포트한다. Motivation 양자화와 프루닝은 모두 비슷한 시기에 시작되어 발전하였다. 그러나 아직까지 올바른 비교는 (저자가 아는 한) 없었다고 주장한다. 본 연구의 리포트가 앞으로 딥러닝 추론 하드웨어 디자인 결정에 도움이 되기를 희망한다. 이 논문은 실험을 위해 몇 가지 강력한 가정을 사용한다. 먼저 FP16 데이터 타입을 기준으로 삼는다. 일반적으로 딥러닝 추론 성능의 정확도를 떨어트리지 않는 마지노선이라 주장하고, 신경망은 매우 흔하게 FP16 타입에서 학습되기 때문이다....

[논문] SqueezeLLM: Dense-and-Sparse Quantization

Paper Link Sehoon Kim et al (UC Berkeley) Introduction This paper proposes a Psuedo-PTQ method considering the weight distribution of LLM and outliers. Motivation Large Language Models (LLMs) have demonstrated remarkable results for a wide range of tasks. Deploying LLMs for inference has been a significant challenge due to their unprecedented resource requirements. AThis has forced existing deployment frameworks to use multi-GPU inference pipelines, or to use smaller and less performant models....

[논문] Content-aware Unsupervised Deep Homography Estimation and Its Enxtensions

Motivation 호모그래피는 스테레오 비전의 근본이다. 영상이 대략 회전 모션이거나 장면이 평면 표면에 가까우면 호모그래피 행렬을 근사할 수 있다. 장면이 제약 조건을 만족하면 직접 호모그래피를 계산할 수 있다. 시맨텍 어웨어하고 러버스트한 호모그래피 추정 딥러닝 알고리즘을 개발 Related Works 생략 Contribution 두 이미지를 인코더 레즈넷34 백본을 받아서 3x3, 8DoF의 호모그래피 행렬을 추정 호모그래피 추정을 위해 Triplet Loss를 사용 호모그래피 추정이 완벽하다면 호모그래피를 통한 와핑이 잘 되어야 함 그래서 와핑한 피처 혹은 이미지가 타겟 피처 또는 이미지와 잘 얼라인 되어야 함 두 번째 로스 텀은 잘 모르겠음 호모그래피 a→b에서 b→a는 identity로 레귤라이저를 추가함 Content-aware prob map...

[논문] Rethinking the Augmentation Module in Contrastive Learning

Motivation CL은 DA에 강력하게 의존하는 방법이다. 인위적인 DA는 다음과 같은 단점이 있다. 데이터 증강의 휴리스틱한 조합은 특정적인 표현 불변성을 가져다 준다. 강력한 데이터 증강은 너무 많은 불변성을 가지고 있어서 오히려 fine-grained한 다운스트림 태스크에 적합하지 않다. 따라서 이 논문은 어디서? 무엇을? 이란 질문으로 DA를 하는 방법론을 소개한다. Related Work 생략 Contribution 다양한 augmentation module 조합을 사용한다. 샴 구조는 깊이에 따라 여러 스테이지로 활용한다. 각 스테이지의 피처를 CL에 활용한다. Hierarchical augmentation invariance...

[논문] Self-Supervised Video Representation Leraning with Motion-Contrastive Perception

Motivation CL이나 특정한 Pretext task는 비디오에서 중요하지 않은 배경에 집중하는 문제가 발생 비디오에는 모션이 있음 이 모션에 집중하기 위한 학습 방법을 제안해야함 Related Work Pretext task 방법 지오메트릭한 정보를 배우는 spatial learning clip order를 학습하는 temporal learning space-time 정보를 학습하는 spatiotemporal learning 그러나 이 방법의 단점은 비디오에 리더던시 정보가 많아서 불필요한 학습을 야기함 배경에 대하여 정적이거나 무관한 정보는 모델의 판단성을 저해할 수 있음 배경 때문에 모델의 비디오 이해도가 낮아질 수 있음...