LLM Review Part 1

가장 먼저 GPT 모델을 리뷰해본다.

Why GPT?

LLM 의 발전을 잘 보여주는 그림. 2018 이후 LLM 계열 논문이 폭발적으로 증가. 특히 대중의 관심을 ChatGPT(GPT3.5) 부터 Business적으로 도약하게된 계기가 됨. GPT가 LLM의 부흥기를 이끌었기 때문에 Seed 논문인 GPT계열 모델군들을 이해하는것이 필수적임.

From LLMPracticalGuide: https://github.com/Mooler0410/LLMsPracticalGuide

한국어 초간단 설명 YouTube: https://youtu.be/XwlLeVhWCCc?si=7C9s8r546w84hdqw

Why Lamma?

다음과 같이 오픈소스로 공개된 LLaMA 계열 모델이 가장 많이 변형되어 사용되므로 GPT모델을 모두 리뷰하고, LLaMA 모델로 넘어가서 리뷰도 해야함.

GPT 리뷰

GPT-4까지의 LLM survey 논문: https://arxiv.org/pdf/2402.06196

[GPT-1, 2018] Improving language understanding by generative pre-training, OpenAI, A. Radford et al
[GPT-2, 2019] Language models are unsupervised multitask learners, OpenAI, A. Radford et al
[GPT-3, 2020] Language models are few-shot learners, OpenAI, T. Brown et al
[GPT-4, 2024] GPT-4 Technical Report, OpenAI

한글로 설명한 YouTube 링크가 있으면 먼저 발표를 듣고, 논문을 보는게 이해가 빠름.
우선, 인터넷에 정리된 문서를 통해 빠르게 이해하고, Motivation, Contribution, Detail로 정리.

GPT-1: Improving Language Understanding by Generative Pre-Training

YouTube: https://youtu.be/4qv_ofZN5_U?si=fJhyh94Y3-QxZP-V

Motivation

labeled data가 희소하기 때문에, 풍부한 unlabeled text corpus 를 이용하고 싶은 니즈가 있음. two-stage training 을 통해 여러 task에 trasnfer 가능한 task agnostic model 을 만들 수있는가에 대한 연구. 이는 pre-training 단계에서 얻은 general한 representation power를 fine-tuning단계에서 활용하여 더욱 높은 성능을 만들 수 있도록 하기 위함임.

Contribution

Pre-training: 큰 텍스트 데이터셋을 사용하여 비지도 학습을 통해 언어 모델을 사전 학습.
Fine-tuning: 사전 학습된 모델을 특정 태스크에 맞게 미세 조정.
결과: 다양한 NLP 태스크에서 기존의 지도 학습 모델을 능가하는 성능을 보여줌.

Detail

two-stage training을 한다. 첫번째로 large dataset으로 unsupervised로 generative task에 대해 pre-training을 한다. 그 후, 적은 labeled data로 discriminative task에 대해 fine-tuning을 한다. GPT는 auto-regressive 계열 모델을 사용함. 모델은 multi-layer Transformer decoder 를 사용 하였음.

Unsupervised Pre-training

Large corpus를 unsupervised로 학습하게됨. corpus내의 next token을 맞추기 때문에 label을 corpus만 있으면 얻을 수 있음.

Supervised Fine-tuning

label이 있는 여러 task에 다음과 같은 방식으로 fine-tuning 학습을 진행. task마다 주어진 label $y$를 예측할 수 있도록 모델 끝단에 마지막 layer 인 $W_y$ 를 추가 함. $W_y$는 fine-tuning할 task마다 다르게 설정됨. supervised model의 generalization 향상과 수렴 가속화를 위해 auxiliary objective를 $L_1$을 추가하여 최종적으로는 다음 objective $L_3$를 최적화한다.

주어진 Fine-tuning task 마다 다음과 같이 input과 linear layer가 달라짐. 대표적으로 4가지 task가 있음.

생소할 수 있어서 좀더 설명하면, classification을 제외한 다른 3개의 task는 두 문장들 사이의 관계를 맞추는 task임. 전체 task를 간략히 설명하면 다음과 같음.

Entailment: 문장 A와 문장 B사이의 관계를 Contradiction, Neutral, Entailment 의 3가지 분류로 나뉨.
Similarity: 두 문장 사이의 유사도 계산.
Multiple Choise: Q&A task.
Classification: 데이터셋에 따라 두가지 Task가 있음.
- CoLA dataset: 문법적으로 맞았는지 틀렸는지 분류.
- SST dataset: 문장의 sentiment 분류.

Experiment

데이터 별 task 는 다음과 같음.

Classification: CoLA, SST2
Similrity: MRPR, STSB, QQP
Entailment: MNLI, QNLI
Multiple: RTR

주목할 점은 full (transformer사용, fine-tuning) 에서 전반적인 성능 향상이 가장 좋았음. 놀라운점은 fine-tuning없는 transformer w/o aux LM모델이 Classification과 Similarity task에서 더 높은 성능을 보였다는 점. 그런데, 뒤쪽 데이터 셋(CoLA -> RTE)으로 갈수록 (fine-tuning에 활용하는) labeled 데이터 사이즈가 크기 때문이라고 함.

또한, 모델 Capacity가 클수록 더 성능이 좋다는 점을 Analysis 파트에 리포트함. 왼쪽 그래프를 보면 layer가 커질 수록 성능이 더 좋아지며, Transformer 모델이 LSTM 보다 전반적으로 성능이 좋았던 것을 확인.