대규모 언어 모델2025

DeepSeek-R1 — 오픈 추론 모델

강화학습 중심 후학습과 증류 전략을 전면에 내세운 오픈 추론 모델

DeepSeek-R1은 추론 능력을 강화학습으로 끌어올린 오픈 모델 계열입니다. 논문은 추론 능력이 강화학습만으로도 유도될 수 있음을 강조하고, R1과 함께 여러 증류 모델을 공개했습니다. 이 항목은 2025년 오픈 추론 모델 흐름을 설명하는 대표 사례로 배치했습니다.

핵심 개념

Reasoning Model

더 긴 추론 과정과 검증 행동을 통해 복잡한 문제 해결 성능을 높인 모델

RL Post-Training

사후 단계에서 강화학습을 사용해 추론 전략과 성능을 끌어올리는 방식

Distillation

큰 모델의 추론 패턴을 더 작은 모델로 전달하는 압축 기법

주요 인물

DeepSeek-AI

DeepSeek-R1 및 증류 모델 공개

Daya Guo

DeepSeek-R1 논문 대표 저자진

영향 & 의의

오픈 웨이트 진영에서도 RL 기반 추론 모델과 증류 전략이 적극적으로 제시되고 있음을 보여준 사례. 2025년 추론 특화 모델 흐름을 설명할 때 자주 함께 언급되는 기준점입니다.

용어집

DeepSeek-R1DeepSeek-R1

강화학습 기반 추론 성능을 강조한 DeepSeek의 2025년 오픈 모델

RLReinforcement Learning

보상 신호를 바탕으로 정책을 개선하는 학습 방식. DeepSeek-R1의 핵심 축

DistillModel Distillation

큰 모델의 능력을 작은 모델로 전달하는 압축 및 전이 전략

MoEMixture of Experts

전체는 거대하지만 실제 활성화 파라미터는 일부만 쓰는 희소 구조

AI 발전사

DeepSeek-R1 — 오픈 추론 모델

핵심 개념

주요 인물

영향 & 의의

용어집

관련 항목