대규모 언어 모델2022
ChatGPT & RLHF
인간 피드백 강화학습으로 대화형 AI 대중화
RLHF 파이프라인: SFT → 보상 모델 학습 → PPO 강화학습 (Wikimedia Commons, CC BY-SA)
ChatGPT는 GPT-3.5에 RLHF를 적용하여 자연스럽고 유용한 대화가 가능한 AI입니다. 출시 2개월 만에 1억 사용자를 돌파하며 AI 대중화의 전환점이 되었습니다.
핵심 수식
PPO 목적함수
rₜ(θ)=확률 비율 — 새 정책/이전 정책. 1이면 변화 없음
Âₜ=어드밴티지 — 이 행동이 평균보다 얼마나 좋았는지
clip=비율을 1±ε 범위로 제한 — 한 번에 너무 크게 바뀌지 않도록
ε=클리핑 범위 (보통 0.2) — 정책 업데이트의 안전 장치
𝔼=기댓값 — 여러 경험의 평균
min=클리핑 전/후 중 작은 값 — 보수적으로 업데이트
핵심 개념
RLHF
인간 피드백(순위 매기기)으로 보상 모델을 학습하고, 이를 기반으로 LLM을 정렬
보상 모델(Reward Model)
응답 품질을 점수화하는 모델 — 인간 선호 데이터로 학습
정렬(Alignment)
AI가 인간의 가치관과 의도에 맞게 행동하도록 조정하는 것
주요 인물
장
장 르웁(Long Ouyang)
InstructGPT/RLHF 논문 1저자
폴
폴 크리스티아노
RLHF 개념의 선구자, AI 안전 연구자
영향 & 의의
AI 역사상 가장 빠른 사용자 성장. '정렬(Alignment)' 문제가 학계를 넘어 사회적 의제로 부상했으며, AI 규제 논의를 가속화했습니다.
용어집
RLHFReinforcement Learning from Human Feedback
인간 피드백 강화학습. 사람의 선호도를 기반으로 모델을 정렬하는 기법
SFTSupervised Fine-Tuning
지도 미세 조정. 사람이 작성한 고품질 대화 데이터로 모델을 1차 학습
PPOProximal Policy Optimization
근위 정책 최적화. 정책을 안정적으로 업데이트하는 강화학습 알고리즘
보상 모델Reward Model (RM)
AI 응답의 품질을 점수화하는 모델. 인간 선호 데이터로 학습
정렬Alignment
AI가 인간의 의도·가치관에 맞게 행동하도록 조정하는 것. AI 안전의 핵심 주제
DPODirect Preference Optimization
보상 모델 없이 선호 데이터로 직접 최적화. RLHF의 간소화 대안