LLM 동향

LLM 모델 그 자체부터 응용/생산성을 위한 갖가지 방법을 섞은 모델, 기술들이 계속 나오고 있다. 그러다가 근래에는 그 정도가 사그라든 느낌이 드는데, 이 틈이 딱 공부하기 좋은 시기라고 생각한다. LLM에 관련한 모든 논문은 볼 수 없어도, 히스토리나 최근의 동향을 볼 수 있는 서베이 논문이 많이 나와서 리스트업한다. 시간날 때 읽어보면 각 분야의 개별 연구자 및 개발자들이 어떤 시각으로 LLM을 활용하거나 바라보는지 최신 연구들을 추적할 기회이다.

Large Language Models

Survey on Large Language Models
ChatGPT 공개까지의 Large Language Models의 발전 과정을 담은 서베이 논문이다. 이 논문은 3월에 공개되었는데, 그 이후의 업데이트는 반영되어 있지 않다. 따라서 3월 ~ 8월의 중요한 몇 가지 최신 LLM 연구들을 같이 보면 더 완성도 있는 동향을 파악할 수 있다. [1, 2, 3]
[1] Llama 2: Open Foundation and Fine-Tuned Chat Models
[2] Code Llama: Open Foundation Models for Code
[3] PaLM 2 Technical Report

LLM with Multimodal

Survey on Multimodal Large Language Models
Foundation 모델의 중요한 데이터 도메인은 결국 자연어이고, LLM 개념이 성립할 수 있다. 동시에 Visual-Language, Audio-Language 같이 2개 이상의 데이터 입력을 받는 모델 연구도 계속 활발히 진행중이다. 당연히 이 둘은 만날 수 밖에 없고, LLM 기반으로 Multimodal 딥러닝 연구 또한 이루어지는 것은 자연스럽다. 이에 관하여 올해 6월까지의 서베이이다.

LLM with Autonomous Agents

Survey on Large Language Model based Autonomous Agents
AI 에이전트는 사람과 달리 열린 환경에서 마음껏 의사 결정을 할 수 있지 않다. 제약 조건에서 추론과 의사 결정을 하고 사람을 보조해야 한다. 이 AI 에이전트를 tractable하도록 만드는 베이스라인이 LLM이란 관점으로 최근 8월까지의 동향 논문이다. 최근에는 LLM을 컨트롤러로 활용하여 로봇 제어나 게임 NPC 등 다양하게 적용하는 연구들이 많이 나오고 있다.

LLM with Instruction Tuning

Instruction Tuning for Large Language Models: A Survey
이 서베이는 LLM의 기능 및 성능을 향상시키는데 중요한 기술인 Instruction Tuning의 최근 8월까지의 동향을 이야기한다. Intruction Tuning은 기본 LLM이 모델이 야기하는 부정적 답변이나 이상한 답변을 사람의 상식 범위로 alignment하는 기술이다. 쉽게 말해 LLM용 Fine-tuning을 위한 데이터셋과 학습 방법론 전체를 아우르는 카테고리이다. 어떻게 이 분야가 변해왔는지 전반적인 동향을 담고 있다.

LLM with Compression

Survey on Model Compression for Large Language Models
LLM 모델을 Full Precision으로 배포하는 것은 매우 시간/비용이 많이 드는 문제이다. 따라서 추론 최적화/경량화 관점에서 LLM을 lightweight하게 만드는 것은 중요하다. LLM 모델에서만 고유하게 발견되는 몇 특성을 활용한 기술도 있고 그래서 여러 측면에서 LLM 프렌들리한 경량화 기술이 발전하는 중이다. Pruning, Knowledge Distillation, Quantization, Low-Rank Factorization 카테고리로 나누어서 8월까지의 동향을 설명한다. (다만 나의 개인적인 생각으로 LoRA에는 그리 동의하지 않는다.) [1]
[1] LoRA: Low-Rank Adaptation of Large Language Models

LLM with Evaluation

Survey on Evaluation of Large Language Models
“LLM은 어떻게 평가되어야 할까? 특정 도메인에서는 어떤 metric이 가장 적절한지 그 기준을 알 수 있을까?” 와 같이 LLM의 객관적 metric에 대한 논의들이 담겨있다. 일단 모든 LLM을 객관적으로 평가하는 metric은 존재하지 않는다. 심지어 상당한 수준의 모델이라면 metric에 따라 순위가 바뀌는 경우도 많다. 그래서 LLM의 성능을 측정하는 여러가지 방법론에 대해서 알고자 한다면 이 7월까지의 동향을 읽어본다.

LLM with Applications

Challenges and Applications of Large Language Models
LLM 모델을 연구로서 말고, 상품으로서는 어떨까? 그 고민과 앞으로 해결해야할 문제에 대한 7월까지의 동향이다. 다양한 산업 사례에서 LLM이 적용된 결과를 볼 수 있고, 그 한계점 또한 서술한다.