대규모 언어 모델2020
GPT-3 — 대규모 언어 모델
OpenAI가 1750억 파라미터의 범용 언어 모델을 발표
GPT 아키텍처: 디코더 전용 Transformer 스택 (Wikimedia Commons)
GPT-3는 거대한 스케일의 언어 모델이 퓨샷 학습만으로 다양한 과제를 수행할 수 있음을 보여주었습니다. 프롬프트 엔지니어링이라는 새로운 패러다임을 열었습니다.
핵심 수식
다음 토큰 예측
P(wₜ | ...)=이전 단어들이 주어졌을 때 다음 단어의 확률
wₜ=예측할 다음 토큰
w₁...wₜ₋₁=지금까지 생성된 토큰 시퀀스 (왼쪽→오른쪽, 단방향)
Temperature 스케일링
zᵢ=i번째 토큰의 로짓(logit) — 모델이 출력한 원시 점수
T=Temperature — 낮으면(0.1) 확신 있는 답만, 높으면(1.5) 다양하게
Pᵢ=최종 확률 — softmax로 정규화된 값
e^(z/T)=점수를 지수 변환 — T가 작으면 차이 극대화, 크면 균등화
핵심 개념
퓨샷 학습(Few-shot)
소수의 예시만으로 새로운 과제를 수행하는 능력
스케일링 법칙
모델 크기·데이터·컴퓨팅이 커질수록 성능이 예측 가능하게 향상
프롬프트 엔지니어링
적절한 입력 텍스트를 설계하여 원하는 출력을 유도하는 기술
주요 인물
톰
톰 브라운
GPT-3 논문 1저자 (OpenAI)
샘
샘 올트먼
OpenAI CEO, 대규모 모델 투자를 이끈 경영자
영향 & 의의
AI API 경제의 시작. 프로그래머가 아닌 사람도 자연어로 AI를 활용할 수 있게 되었으며, 이후 ChatGPT, Claude 등 대화형 AI의 직접적 토대가 되었습니다.
용어집
GPTGenerative Pre-trained Transformer
생성형 사전학습 트랜스포머. 다음 토큰을 예측하는 방식으로 학습한 언어 모델
LLMLarge Language Model
대규모 언어 모델. 수십억~수조 파라미터로 범용 언어 능력을 갖춘 모델
Few-shotFew-shot Learning
소수의 예시만으로 새로운 과제를 수행하는 능력. GPT-3의 핵심 발견
TemperatureTemperature (온도)
출력 확률 분포의 날카로움 조절. 낮으면 결정적, 높으면 다양한 출력
Top-K / Top-PTop-K / Nucleus Sampling
다음 토큰 선택 시 후보를 제한하는 샘플링 전략. 품질과 다양성의 균형
파라미터Parameter
모델의 학습 가능한 가중치 수. GPT-3는 1750억 개