대규모 언어 모델2020

GPT-3 — 대규모 언어 모델

OpenAI가 1750억 파라미터의 범용 언어 모델을 발표

GPT 아키텍처: 디코더 전용 Transformer 스택 (Wikimedia Commons)

GPT 아키텍처: 디코더 전용 Transformer 스택 (Wikimedia Commons)

GPT-3는 거대한 스케일의 언어 모델이 퓨샷 학습만으로 다양한 과제를 수행할 수 있음을 보여주었습니다. 프롬프트 엔지니어링이라는 새로운 패러다임을 열었습니다.

핵심 수식

다음 토큰 예측
P(wtw1,w2,,wt1)P(w_t | w_1, w_2, \ldots, w_{t-1})
P(wₜ | ...)=이전 단어들이 주어졌을 때 다음 단어의 확률
wₜ=예측할 다음 토큰
w₁...wₜ₋₁=지금까지 생성된 토큰 시퀀스 (왼쪽→오른쪽, 단방향)
Temperature 스케일링
Pi=ezi/Tjezj/TP_i = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}}
zᵢ=i번째 토큰의 로짓(logit) — 모델이 출력한 원시 점수
T=Temperature — 낮으면(0.1) 확신 있는 답만, 높으면(1.5) 다양하게
Pᵢ=최종 확률 — softmax로 정규화된 값
e^(z/T)=점수를 지수 변환 — T가 작으면 차이 극대화, 크면 균등화

핵심 개념

퓨샷 학습(Few-shot)

소수의 예시만으로 새로운 과제를 수행하는 능력

스케일링 법칙

모델 크기·데이터·컴퓨팅이 커질수록 성능이 예측 가능하게 향상

프롬프트 엔지니어링

적절한 입력 텍스트를 설계하여 원하는 출력을 유도하는 기술

주요 인물

톰 브라운
GPT-3 논문 1저자 (OpenAI)
샘 올트먼
OpenAI CEO, 대규모 모델 투자를 이끈 경영자

영향 & 의의

AI API 경제의 시작. 프로그래머가 아닌 사람도 자연어로 AI를 활용할 수 있게 되었으며, 이후 ChatGPT, Claude 등 대화형 AI의 직접적 토대가 되었습니다.

용어집

GPTGenerative Pre-trained Transformer

생성형 사전학습 트랜스포머. 다음 토큰을 예측하는 방식으로 학습한 언어 모델

LLMLarge Language Model

대규모 언어 모델. 수십억~수조 파라미터로 범용 언어 능력을 갖춘 모델

Few-shotFew-shot Learning

소수의 예시만으로 새로운 과제를 수행하는 능력. GPT-3의 핵심 발견

TemperatureTemperature (온도)

출력 확률 분포의 날카로움 조절. 낮으면 결정적, 높으면 다양한 출력

Top-K / Top-PTop-K / Nucleus Sampling

다음 토큰 선택 시 후보를 제한하는 샘플링 전략. 품질과 다양성의 균형

파라미터Parameter

모델의 학습 가능한 가중치 수. GPT-3는 1750억 개

관련 항목