Efficient Large Language Models
Introduction
본 글은 Yizhang Jin et al “Efficient Multimodal Large Language Models” 서베이에 기반한다.
2023년 중후반부터 멀티모달 기반 대형 언어 모델(Multimodal Large Language Models, MLMMs)의 발전은 텍스트 기반을 넘어 시각적 이해 및 추론 작업에서 놀라운 성과를 보였다. 그러나 LLM과 마찬가지로 모델 크기가 매우 크고, 훈련 및 추론 비용이 높아 학계와 산업계에서 광범위한 응용을 제한시켰다. 이에 따라 로컬 장치, 엣지 컴퓨팅 등의 요구 사항을 충족하기 위해 효율적이고 경량화된 MLMM을 연구하는 시도가 많아졌다. 이러한 변화는 LLM의 소형화와 우수한 비전 인코더의 발전과 함께 진행되고 있다.
대규모 사전 학습은 최근 AI의 가장 중요한 테마 중 하나다. 이러한 과정은 LLM이나 멀티모달 모델에게 범용적인 특성을 부여하여, 새로운 태스크를 잘 수행할 수 있게 한다. 이를 통해 여러 애플리케이션에 응용할 수 있다. 이미 OpenAI의 GPT-4V와 Google의 Gemini 등이 대표적인 상용 모델로 자리잡고 있다. 이 모델들은 모두 멀티모달 기반 LLM이다. 따라서 MLMMs 또한 많은 주목을 받고 있다.
당연히 MLMMs도 스케일링 법칙을 따른다. 범용 모델의 성능은 데이터, 컴퓨팅 파워, 모델 크기의 세 가지 변수에 의해 결정된다. 그러나 이 법칙은 높은 자원 부담을 초래하여 MLMM의 개발 및 배포를 어렵게 만든다. 예를 들어, MiniGPT-v2의 훈련은 A100 GPU 기준으로 총 800 GPU 시간이 필요하다. 이러한 리소스를 여유롭게 감당할 수 있는 기관은 흔하지 않다.
MLMMs를 효율적으로 만드는 관점은 아래와 같이 정리할 수 있다.
- 아키텍처: MLLM의 프레임워크가 요구하는 컴퓨터 리소스를 줄이는 것에 집중한다.
- 효율적인 비전 모델: 시각적 인식을 하기 위한 인코더 모델을 효율적으로 만드는 것에 집중한다.
- 효율적인 언어 모델: 언어 모델은 MLLM에서 가장 큰 비중을 차지한다. 따라서 이를 효율적으로 만드는 것에 집중한다.
- 학습과 데이터 그리고 벤치마크: MLLM의 효율적인 개발과 검증을 위해 올바른 데이터셋, 벤치마크 기준이 필요하다.
Architecture
효율적인 MLMMs는 3가지 구성이 중요하다.
- Visual Encoder
- Large Language Models
- Projector 대부분의 발전은 이 3가지 내에서 디테일한 고민이 이루어진다. 예를 들면 고해상도 이미지 처리, 비전 토큰 압축, 모델 경량화 등이다.
Vision Encoder
Vision-Language Projector
Small Language Model
Token Compression
Efficient Structures
Efficient Vision
Efficient LLMs
Limitation
- 어떻게 더 많은 이미지 시퀀스를 처리할 것인가?
아직까지 MLLM은 <이미지, 텍스트> 처리에 중점을 둔다. 실제 세상은 이미지로만 해석되지 않는다. Long-context를 가지는 비디오 도메인과의 결합이 필요하다. - 어떻게 더 풍부한 모달리티를 처리할 것인가?
앞서 말한 것처럼 <이미지, 텍스트> 처리를 벗어나 <이미지, 텍스트, …> 와 같이 더 다양한 모달리티 처리가 필요하다. - 더 많은 데이터와 더 우수한 경량 언어 모델
가장 중요한 것은 데이터이다. 소형 모델의 제한된 표현력을 극한으로 끌어올리는 방법은 품질 좋은 더 많은 데이터를 써야한다. 그리고 어디까지 소형 언어 모델이 발전할 수 있을지와 연관된다. 이는 제한된 환경이 요구하는 까다로운 요구사항을 충족할 수 있다. - On-Device에서의 에이전트 애플리케이션
Efficient MLMM의 가능성은 로컬 장치에서의 에이전트 애플리케이션이다. 도메인 특화된 기능으로 현실 세계와 상호작용할 수 있는 에이전트 구현은 지속적으로 도전해야할 영역이다.