대규모 언어 모델2022

LLM.int8 — 대형 모델 양자화

대규모 언어 모델을 8비트 정밀도로 추론하는 실용적 방법을 제시

LLM.int8은 대형 트랜스포머를 8비트 정밀도로 추론하면서도 성능 저하를 최소화할 수 있음을 보인 기법입니다. 논문은 메모리 사용량을 줄이면서도 대형 모델 추론을 유지할 수 있음을 강조하며, 저정밀도 LLM 추론 연구의 대표 사례로 널리 인용됩니다.

핵심 개념

Quantization

가중치와 연산 정밀도를 낮춰 메모리와 계산 비용을 줄이는 기법

Outlier Features

저정밀도에서 성능 저하를 일으키는 큰 값의 활성/가중치 패턴

Mixed Precision

대부분은 저정밀도로, 일부 민감한 값은 고정밀도로 처리하는 방식

주요 인물

T
Tim Dettmers
LLM.int8 논문 1저자
L
Luke Zettlemoyer
공동 저자, 대규모 모델 효율화 연구 기여

영향 & 의의

저정밀도 추론이 대형 언어 모델에도 적용 가능하다는 점을 분명히 보여준 사례. 이후 4비트 양자화와 메모리 절감형 추론 기법 연구가 빠르게 이어졌습니다.

용어집

Int88-bit Integer

32비트 대신 8비트 정수 표현을 사용해 메모리 사용을 줄이는 방식

QuantizationQuantization

수치를 더 낮은 비트 수로 표현해 모델을 경량화하는 기법

OutlierOutlier Feature

양자화 시 정확도 손실을 크게 유발하는 예외적으로 큰 값

bitsandbytesbitsandbytes

LLM 양자화와 저정밀 연산 확산에 큰 역할을 한 라이브러리

관련 항목