대규모 언어 모델2021

Switch Transformer — MoE의 부상

희소 활성화 기반 Mixture-of-Experts 구조를 대규모 트랜스포머에 실용적으로 적용

Switch Transformer는 Mixture-of-Experts(MoE)를 대규모 트랜스포머에 적용한 대표 사례입니다. 모든 파라미터를 매 토큰마다 활성화하는 대신, 라우터가 각 토큰을 일부 expert로만 보내 계산량을 줄입니다. 이 논문은 대형 언어 모델에서 희소 활성화 구조를 실용적으로 확장할 수 있음을 보여준 초기 기준점으로 자주 인용됩니다.

핵심 개념

MoE

여러 expert 중 일부만 선택적으로 활성화하는 희소 모델 구조

Router

입력 토큰을 어떤 expert로 보낼지 결정하는 게이트 네트워크

Sparse Activation

전체 파라미터 중 일부만 사용해 계산량을 억제하는 방식

주요 인물

W
William Fedus
Switch Transformer 논문 1저자 (Google Research)
B
Barret Zoph
공동 저자, 대규모 MoE 연구 기여
N
Noam Shazeer
MoE 계열 연구의 핵심 선구자

영향 & 의의

대규모 모델 확장에서 dense 구조 외에 sparse MoE 구조가 실용적 대안이 될 수 있음을 보여준 사례. 이후 대형 모델 설계에서 희소 활성화 구조가 반복적으로 검토되는 흐름으로 이어졌습니다.

용어집

MoEMixture of Experts

여러 expert 모듈 중 일부만 활성화하는 희소 신경망 구조

Dense ModelDense Model

모든 토큰이 모든 파라미터를 통과하는 전통적인 모델 구조

ExpertExpert

특정 입력 패턴에 대응하도록 학습되는 서브 네트워크

Top-1 RoutingTop-1 Routing

각 토큰을 가장 적합한 expert 하나로만 보내는 단순 라우팅 방식

Activated ParamsActivated Parameters

전체 파라미터 중 실제 추론 시 사용된 부분만 집계한 값

관련 항목