대규모 언어 모델2021
Switch Transformer — MoE의 부상
희소 활성화 기반 Mixture-of-Experts 구조를 대규모 트랜스포머에 실용적으로 적용
Switch Transformer는 Mixture-of-Experts(MoE)를 대규모 트랜스포머에 적용한 대표 사례입니다. 모든 파라미터를 매 토큰마다 활성화하는 대신, 라우터가 각 토큰을 일부 expert로만 보내 계산량을 줄입니다. 이 논문은 대형 언어 모델에서 희소 활성화 구조를 실용적으로 확장할 수 있음을 보여준 초기 기준점으로 자주 인용됩니다.
핵심 개념
MoE
여러 expert 중 일부만 선택적으로 활성화하는 희소 모델 구조
Router
입력 토큰을 어떤 expert로 보낼지 결정하는 게이트 네트워크
Sparse Activation
전체 파라미터 중 일부만 사용해 계산량을 억제하는 방식
주요 인물
W
William Fedus
Switch Transformer 논문 1저자 (Google Research)
B
Barret Zoph
공동 저자, 대규모 MoE 연구 기여
N
Noam Shazeer
MoE 계열 연구의 핵심 선구자
영향 & 의의
대규모 모델 확장에서 dense 구조 외에 sparse MoE 구조가 실용적 대안이 될 수 있음을 보여준 사례. 이후 대형 모델 설계에서 희소 활성화 구조가 반복적으로 검토되는 흐름으로 이어졌습니다.
용어집
MoEMixture of Experts
여러 expert 모듈 중 일부만 활성화하는 희소 신경망 구조
Dense ModelDense Model
모든 토큰이 모든 파라미터를 통과하는 전통적인 모델 구조
ExpertExpert
특정 입력 패턴에 대응하도록 학습되는 서브 네트워크
Top-1 RoutingTop-1 Routing
각 토큰을 가장 적합한 expert 하나로만 보내는 단순 라우팅 방식
Activated ParamsActivated Parameters
전체 파라미터 중 실제 추론 시 사용된 부분만 집계한 값