대규모 언어 모델2021

Switch Transformer — MoE의 부상

희소 활성화 기반 Mixture-of-Experts 구조를 대규모 트랜스포머에 실용적으로 적용

Switch Transformer는 Mixture-of-Experts(MoE)를 대규모 트랜스포머에 적용한 대표 사례입니다. 모든 파라미터를 매 토큰마다 활성화하는 대신, 라우터가 각 토큰을 일부 expert로만 보내 계산량을 줄입니다. 이 논문은 대형 언어 모델에서 희소 활성화 구조를 실용적으로 확장할 수 있음을 보여준 초기 기준점으로 자주 인용됩니다.

핵심 개념

MoE

여러 expert 중 일부만 선택적으로 활성화하는 희소 모델 구조

Router

입력 토큰을 어떤 expert로 보낼지 결정하는 게이트 네트워크

Sparse Activation

전체 파라미터 중 일부만 사용해 계산량을 억제하는 방식

주요 인물

William Fedus

Switch Transformer 논문 1저자 (Google Research)

Barret Zoph

공동 저자, 대규모 MoE 연구 기여

Noam Shazeer

MoE 계열 연구의 핵심 선구자

영향 & 의의

대규모 모델 확장에서 dense 구조 외에 sparse MoE 구조가 실용적 대안이 될 수 있음을 보여준 사례. 이후 대형 모델 설계에서 희소 활성화 구조가 반복적으로 검토되는 흐름으로 이어졌습니다.

용어집

MoEMixture of Experts

여러 expert 모듈 중 일부만 활성화하는 희소 신경망 구조

Dense ModelDense Model

모든 토큰이 모든 파라미터를 통과하는 전통적인 모델 구조

ExpertExpert

특정 입력 패턴에 대응하도록 학습되는 서브 네트워크

Top-1 RoutingTop-1 Routing

각 토큰을 가장 적합한 expert 하나로만 보내는 단순 라우팅 방식

Activated ParamsActivated Parameters

전체 파라미터 중 실제 추론 시 사용된 부분만 집계한 값

AI 발전사

Switch Transformer — MoE의 부상

핵심 개념

주요 인물

영향 & 의의

용어집

관련 항목