[논문] Layer Sharing for Parameter-Efficient Transformer

개요 이 글은 Qualcomm의 심규홍 박사님이 발표해주신 자료를 토대로 작성한다. 대상: 트랜스포머를 이해하고 있는 개발자들을 위한 세미나 Motivation 트랜스포머 애플리케이션은 서버 베이스 모델에서는 활발하게 사용되고 있다. 이제 모바일 베이스로 들어갈려고 한다. 트랜스포머는 scaling-law를 따른다. 더 크고, 더 많이 쌓을수록 더 좋은 성능이 나온다. 따라서 돈을 들이면 성능이 보장된다. 그 예시가 LLM이다. 그러나 Efficiecy 관점에서 충분히 고민을 해봐야할 문제가 많다. RAM 사이즈, NPU 퍼포먼스, Cache 사이즈 등 고려해야 할 사항이 많다. On-device LLM에 대한 사이즈가 어느정도 적절할까? ...

[논문] Survey: Large Multimodal Models

개요 최근 대형 언어 모델은 멀티모달과 결합한 방향으로 변하고 있다. 구현 방식에 몇 가지 유형이 있지만, 공통적으로 멀티모달 데이터 임베딩을 자연어 임베딩 공간으로 매핑한 후, 이를 언어 모델 추론을 위한 입력으로 활용한다. 대형 멀티모달 모델의 큰 접근은 아래와 같다. 중요한 트렌드 멀티모달 이해에서 생성으로 그리고 모달리티 간의 변환 (Any-to-Any) (예시: MiniGPT-4 → MiniGPT-5 → NExT-GPT) Pre-Training - Supervised Fine-Tuning - RLHF으로의 훈련 파이프라인 (예시: BLIP-2 → InstructBLIP → DRESS) 다양한 모달리티으로의 확장 (예시: BLIP-2 → X-LLM, InstructBLIP → X-InstructBLIP) 높은 품질의 데이터셋 활용 (예시: LLaVA → LLaVA-1.5, 2024. 01. 30 기준 LLaVA 1.6) 훈련 파이프라인 Multimodal Pre-Training (MM PT) 일반적으로 사전 훈련 단계에서 모델은 (X - Text) 데이터셋을 통하여 다양한 모달리티 간의 임베딩을 정렬하고, 최종적으로 미리 정의된 목표를 최적화한다. 이때 데이터셋은 (이미지, 텍스트), (비디오, 텍스트), (오디오, 텍스트) 유형으로 나눈다. 더 나아가 (이미지, 텍스트)는 (<이미지1, 텍스트1> <이미지2, 텍스트2> <이미지3, 텍스트3> …) 형태로 구성될 수 있다. Multomodal Instruction Tuning (MM IT) 지시문 구조의 데이터셋을 사용하여 사전 훈련된 MM-LLMs를 튜닝하는 방법론이다. 이 과정을 통하여 MM-LLMs는 새로운 지시에 따른 작업을 일반화하고, 제로샷 성능을 향상시킬 수 있습니다. 이 간단하지만 중요한 개념은 NLP 분야에서의 성공적인 방법을 따르는 형태이다. 자연어 처리처럼 다시 MM IT는 지도학습 기반 튜닝 (SFT)과 인간 피드백으로부터의 강화 학습 (RLHF)으로 나눌 수 있다. 최종적으로 인간의 의도나 선호도를 모델의 출력과 일치시키고 MM-LLMs의 상호 작용 능력을 향상하는 것이 목표이다. 훈련 레시피 고해상도 이미지는 모델에 더 많은 시각적 특징을 부여한다. 그러나 높은 해상도는 더 긴 토큰 시퀀스로 이어져 훈련, 추론 비용이 커진다. 고품질 SFT 데이터셋은 특정 작업에서의 성능을 크게 향상시킨다. LLM 백본에 PEFT를 수행하는 것은 ICL에 중요한 임베딩 정렬을 도와준다. 인터리브 이미지 - 텍스트 데이터는 유용하지만, (이미지, 텍스트) 쌍만으로는 부족하다. SFT 동안 텍스트 지시 데이터를 (이미지, 텍스트) 데이터와 혼합하는 것은 텍스트 작업 저하를 해결할 뿐만 아니라 Vision-Language 작업 정확도를 올린다. 미래 더 강력한 모델 더 어려운 벤치마크 구체화된 지능의 구현 모델 경량화와 On-Device 배포 지속적인 Instruction Tuning 기법 서베이 [1] A Survey of Resource-efficient LLM and Multimodal Foundation Models [2] MM-LLMs: Recent Advances in MultiModal Large Language Models ...

[논문] Survey: Efficient Large Language Models

개요 대규모 언어 모델은 자연어 이해, 생성, 복잡한 추론과 같은 작업에서 뛰어난 능력을 보여주었다. 그러나 대규모 언어 모델은 막대한 하드웨어 리소스가 필요하고, 효율성을 위한 기술 개발의 니즈가 발생하였다. 이 기술 동향은 효율적인 대규모 언어 모델을 위해 몇 가지 기술 분류와 최근 동향을 제안한다. Model Compression Weight-Only Quantization (PTQ) GPTQ: Accurate Quantization for Generative Pre-trained Transformers, [Paper] [Code] ICLR, 2023 QuIP: 2-Bit Quantization of Large Language Models With Guarantees, [Paper] [Code] arXiv, 2023 ...

[논문] ICCV 2023 관심 논문 리스트업

ICCV 2023 ICCV 2023 Link Papers ICCV 2023이 열리고 있다. NeRF, Multimodal/VQA, Model Compression 위주로 트래킹한다. (일부 특이한 연구도 포함) Neural Radiance Fields NeRF-MS: Neural Radiance Fields with Multi-Sequence Peihao Li et al. Re-ReND: Real-time Rendering of NeRFs across Devices Sara Rojas et al. CLNeRF: Continual Learning Meets NeRF Zhipeng Cai, Matthias Muller Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction Hansheng Chen et al. SceneRF: Self-Supervised Monocular 3D Scene Reconstruction with Radiance Fields Anh-Quan Cao, Raoul de Charette ...

[논문] Survey: Large Language Models Compression

대규모 언어 모델의 경량화 동향 Abstract LLM은 거대한 크기와 계산량으로 인해, 리소스 제한적인 환경에서의 배포를 어렵게 만듬 LLM의 압축이 중요한 분야임. 이 서베이는 LLM 압축 기술의 많은 자료를 제공함 Quantization, Pruning, KD 등 다양한 방법론을 탐구하며, 최신 연구와 접근법을 보여줌 압축된 LLM을 평가하기 위한 메트릭에 대한 조사도 진행함 Introduction & Method 대규모 언어 모델은 다양한 태스크에서 뛰어난 능력을 보여주고 있다. 그럼에도 모델의 방대한 크기와 요구되는 계산량때문에 배포에서 많은 어려움이 따른다. 2020년의 GPT-175B 모델은 1,750억 개 파라미터이다. Half-Precision (FP16) 으로 저장하면 320GB 크기이다. 추론만 하더라도 80GB VRAM의 A100 GPU가 최소 5개 이상을 필요하다. 이 이슈를 모델 압축 접근법으로 해결한다. 모델 압축은 큰 리소스를 소모하는 모델을 제한된 리소스에 배포하기 위해 필요한 모든 과정을 말한다. 압축에서 트레이드오프가 발생하는 조건들이 있지만, 공통의 목표는 아래와 같이 정리된다. ...

[논문] Survey: Large Language Models

LLM 동향 LLM 모델 그 자체부터 응용/생산성을 위한 갖가지 방법을 섞은 모델, 기술들이 계속 나오고 있다. 그러다가 근래에는 그 정도가 사그라든 느낌이 드는데, 이 틈이 딱 공부하기 좋은 시기라고 생각한다. LLM에 관련한 모든 논문은 볼 수 없어도, 히스토리나 최근의 동향을 볼 수 있는 서베이 논문이 많이 나와서 리스트업한다. 시간날 때 읽어보면 각 분야의 개별 연구자 및 개발자들이 어떤 시각으로 LLM을 활용하거나 바라보는지 최신 연구들을 추적할 기회이다. Large Language Models Survey on Large Language Models ChatGPT 공개까지의 Large Language Models의 발전 과정을 담은 서베이 논문이다. 이 논문은 3월에 공개되었는데, 그 이후의 업데이트는 반영되어 있지 않다. 따라서 3월 ~ 8월의 중요한 몇 가지 최신 LLM 연구들을 같이 보면 더 완성도 있는 동향을 파악할 수 있다. [1, 2, 3] [1] Llama 2: Open Foundation and Fine-Tuned Chat Models [2] Code Llama: Open Foundation Models for Code [3] PaLM 2 Technical Report ...

[논문] ICML 2023 관심 논문 리스트업

ICML 2023 Papers ICML 2023이 열리고 있다. Distillation, Quantization, HW-aware Deep Learning 위주로 트래킹 중이다. COMCAT: Towards Efficient Compression and Customization of Attention-Based Vision Models Jinqi Xiao, Miao Yin, Yu Gong, Xiao Zang, Jian Ren, Bo Yuan DIVISION: Memory Efficient Training via Dual Activation Precision Guanchu Wang, Zirui Liu, Zhimeng Jiang, Ninghao Liu, Na Zou, Xia Hu Fast Private Kernel Density Estimation via Locality Sensitive Quantization Tal Wagner, Yonatan Naamad, Nina Mishra ...

[개발] Hugo 테마에서 마크다운 텍스트 양쪽 정렬

Hugo 텍스트 양쪽 정렬 기본적으로 마크다운 문법은 텍스트 양쪽 정렬을 지원하지 않는다. 다만 .scss 파일에 몇 줄 코드 추가로 강제 양쪽 정렬을 할 수 있다. 먼저 아래의 경로로 들어가자. <blog folder>/assets/themes/_main.scss <blog folder>/assets/themes/_markdown.scss 그리고 아래의 코드를 추가하여 저장한다. // 글 양쪽 정렬 p { text-align: justify; word-break: break-all; } 다시 리빌드를 하면 텍스트 양쪽 정렬이 된 것을 확인할 수 있다.

[논문] Pruning vs Quantization: Which is Better?

Paper Link Andrey Kuzmin et al (Qualcomm AI Research) Introduction 이 논문은 딥러닝 모델 압축에서 Quantization과 Pruning이 무엇이 어떤 경우에 더 우수한지의 정량적 실험 결과를 리포트한다. Motivation 양자화와 프루닝은 모두 비슷한 시기에 시작되어 발전하였다. 그러나 아직까지 올바른 비교는 (저자가 아는 한) 없었다고 주장한다. 본 연구의 리포트가 앞으로 딥러닝 추론 하드웨어 디자인 결정에 도움이 되기를 희망한다. 이 논문은 실험을 위해 몇 가지 강력한 가정을 사용한다. 먼저 FP16 데이터 타입을 기준으로 삼는다. 일반적으로 딥러닝 추론 성능의 정확도를 떨어트리지 않는 마지노선이라 주장하고, 신경망은 매우 흔하게 FP16 타입에서 학습되기 때문이다. 이를 기준으로 하여, 50% 프루닝은 INT8 양자화와 비교한다. 그리고 75% 프루닝은 INT4 양자화와 비교한다. 또한 프루닝 기법은 magnitude pruning을 사용하고, 양자화는 symmetric uniform quantization을 사용한다. 전자를 선택한 이유는 magnitude pruning + fine tuning을 능가하는 일반적인 프루닝 방법론은 없다. 또한 후자의 이유는 가장 광범위하게 사용되는 양자화 기법이기 때문이다. 또한 두 기법의 차이를 계량하기 위해 SNR을 사용한다. 이 메트릭은 MSE의 로그 스케일과 같다. ...

[논문] SqueezeLLM: Dense-and-Sparse Quantization

Paper Link Sehoon Kim et al (UC Berkeley) Introduction This paper proposes a Psuedo-PTQ method considering the weight distribution of LLM and outliers. Motivation Large Language Models (LLMs) have demonstrated remarkable results for a wide range of tasks. Deploying LLMs for inference has been a significant challenge due to their unprecedented resource requirements. AThis has forced existing deployment frameworks to use multi-GPU inference pipelines, or to use smaller and less performant models. They demonstrates that the main bottleneck for inference with LLMs is memory bandwidth, specifically for single batch inference. Contribution Sensitivity-based Non-Uniform Quantization In LLaMA-7B. The distribution clearly demonstrates a non-uniform pattern. In LLM quantization. Uniformly distributing quantized values is sub-optimal because the weight distribution in neural networks is typically non-uniform. Main advantage of uniform quantization is fast and efficient reduced precision computation, this does not lead to end-to-end latency improvement in memory-bound LLM inference. While quantization introduces errors or perturbations in each layer, we need to minimize the overall perturbation with respect to the final loss term, rather than focusing on individual layers. The k-means centroids closer to the values that are more sensitive with respect to the final loss, rather than treating all weight values equally. Taylor series expansion to analyze how the model output changes in response to perturbations in the parameters W Dense and Sparse Decomposition a method to filter out outliers from the weight matrix W by performing a very simple, yet effective, decomposition of the weight matrix into a dense (D) and sparse matrix (S). The sparse part is calculated by computing the outliers in a given layer, and taking it out of the weight matrix. The remainder is a dense matrix that can be quantized much more effectively thanks to its significantly reduced range of values, which in some cases is more than 10×: Experiments PTQ like framework that enables lossless compression to ultra-low precisions of up to 3-bit. Consistent performance improvement across different model sizes compared to GPTQ and AWQ. Conclusion Nope