개요

최근 대형 언어 모델은 멀티모달과 결합한 방향으로 변하고 있다. 구현 방식에 몇 가지 유형이 있지만, 공통적으로 멀티모달 데이터 임베딩을 자연어 임베딩 공간으로 매핑한 후, 이를 언어 모델 추론을 위한 입력으로 활용한다. 대형 멀티모달 모델의 큰 접근은 아래와 같다.

중요한 트렌드

  • 멀티모달 이해에서 생성으로 그리고 모달리티 간의 변환 (Any-to-Any)
    (예시: MiniGPT-4 → MiniGPT-5 → NExT-GPT)
  • Pre-Training - Supervised Fine-Tuning - RLHF으로의 훈련 파이프라인
    (예시: BLIP-2 → InstructBLIP → DRESS)
  • 다양한 모달리티으로의 확장
    (예시: BLIP-2 → X-LLM, InstructBLIP → X-InstructBLIP)
  • 높은 품질의 데이터셋 활용
    (예시: LLaVA → LLaVA-1.5, 2024. 01. 30 기준 LLaVA 1.6)

훈련 파이프라인

  • Multimodal Pre-Training (MM PT)
    일반적으로 사전 훈련 단계에서 모델은 (X - Text) 데이터셋을 통하여 다양한 모달리티 간의 임베딩을 정렬하고, 최종적으로 미리 정의된 목표를 최적화한다. 이때 데이터셋은 (이미지, 텍스트), (비디오, 텍스트), (오디오, 텍스트) 유형으로 나눈다. 더 나아가 (이미지, 텍스트)는 (<이미지1, 텍스트1> <이미지2, 텍스트2> <이미지3, 텍스트3> …) 형태로 구성될 수 있다.
  • Multomodal Instruction Tuning (MM IT)
    지시문 구조의 데이터셋을 사용하여 사전 훈련된 MM-LLMs를 튜닝하는 방법론이다. 이 과정을 통하여 MM-LLMs는 새로운 지시에 따른 작업을 일반화하고, 제로샷 성능을 향상시킬 수 있습니다. 이 간단하지만 중요한 개념은 NLP 분야에서의 성공적인 방법을 따르는 형태이다. 자연어 처리처럼 다시 MM IT는 지도학습 기반 튜닝 (SFT)과 인간 피드백으로부터의 강화 학습 (RLHF)으로 나눌 수 있다. 최종적으로 인간의 의도나 선호도를 모델의 출력과 일치시키고 MM-LLMs의 상호 작용 능력을 향상하는 것이 목표이다.

훈련 레시피

  • 고해상도 이미지는 모델에 더 많은 시각적 특징을 부여한다.
    그러나 높은 해상도는 더 긴 토큰 시퀀스로 이어져 훈련, 추론 비용이 커진다.
  • 고품질 SFT 데이터셋은 특정 작업에서의 성능을 크게 향상시킨다.
  • LLM 백본에 PEFT를 수행하는 것은 ICL에 중요한 임베딩 정렬을 도와준다.
  • 인터리브 이미지 - 텍스트 데이터는 유용하지만, (이미지, 텍스트) 쌍만으로는 부족하다.
  • SFT 동안 텍스트 지시 데이터를 (이미지, 텍스트) 데이터와 혼합하는 것은
    텍스트 작업 저하를 해결할 뿐만 아니라 Vision-Language 작업 정확도를 올린다.

미래

  • 더 강력한 모델
  • 더 어려운 벤치마크
  • 구체화된 지능의 구현
  • 모델 경량화와 On-Device 배포
  • 지속적인 Instruction Tuning 기법

서베이

[1] A Survey of Resource-efficient LLM and Multimodal Foundation Models
[2] MM-LLMs: Recent Advances in MultiModal Large Language Models

주요 모델

[1] CogVLM
[2] DRESS
[3] MiniGPT-5
[4] LLaVA 1.5
[5] NExT-GPT
[6] Video-LLaMA
[7] Shikra
[8] InstructBLIP
[9] PandaGPT
[10] PaLI-X
[11] LLaVA
[12] MiniGPT-4
[13] BLIP-2
[14] Flamingo

주요 벤치마크

[1] LLaVA-Bench
[2] MM-Vet
[3] Q-Bench
[4] MMBench
[5] SEED-Bench
[6] MME
[7] A-OKVQA
[8] IconQA
[9] VizWiz
[10] VQA v2.0