대규모 언어 모델2025
DeepSeek-R1 — 오픈 추론 모델
강화학습 중심 후학습과 증류 전략을 전면에 내세운 오픈 추론 모델
DeepSeek-R1은 추론 능력을 강화학습으로 끌어올린 오픈 모델 계열입니다. 논문은 추론 능력이 강화학습만으로도 유도될 수 있음을 강조하고, R1과 함께 여러 증류 모델을 공개했습니다. 이 항목은 2025년 오픈 추론 모델 흐름을 설명하는 대표 사례로 배치했습니다.
핵심 개념
Reasoning Model
더 긴 추론 과정과 검증 행동을 통해 복잡한 문제 해결 성능을 높인 모델
RL Post-Training
사후 단계에서 강화학습을 사용해 추론 전략과 성능을 끌어올리는 방식
Distillation
큰 모델의 추론 패턴을 더 작은 모델로 전달하는 압축 기법
주요 인물
D
DeepSeek-AI
DeepSeek-R1 및 증류 모델 공개
D
Daya Guo
DeepSeek-R1 논문 대표 저자진
영향 & 의의
오픈 웨이트 진영에서도 RL 기반 추론 모델과 증류 전략이 적극적으로 제시되고 있음을 보여준 사례. 2025년 추론 특화 모델 흐름을 설명할 때 자주 함께 언급되는 기준점입니다.
용어집
DeepSeek-R1DeepSeek-R1
강화학습 기반 추론 성능을 강조한 DeepSeek의 2025년 오픈 모델
RLReinforcement Learning
보상 신호를 바탕으로 정책을 개선하는 학습 방식. DeepSeek-R1의 핵심 축
DistillModel Distillation
큰 모델의 능력을 작은 모델로 전달하는 압축 및 전이 전략
MoEMixture of Experts
전체는 거대하지만 실제 활성화 파라미터는 일부만 쓰는 희소 구조