대규모 언어 모델2022

LLM.int8 — 대형 모델 양자화

대규모 언어 모델을 8비트 정밀도로 추론하는 실용적 방법을 제시

LLM.int8은 대형 트랜스포머를 8비트 정밀도로 추론하면서도 성능 저하를 최소화할 수 있음을 보인 기법입니다. 논문은 메모리 사용량을 줄이면서도 대형 모델 추론을 유지할 수 있음을 강조하며, 저정밀도 LLM 추론 연구의 대표 사례로 널리 인용됩니다.

Quantization

가중치와 연산 정밀도를 낮춰 메모리와 계산 비용을 줄이는 기법

Outlier Features

저정밀도에서 성능 저하를 일으키는 큰 값의 활성/가중치 패턴

Mixed Precision

대부분은 저정밀도로, 일부 민감한 값은 고정밀도로 처리하는 방식

Tim Dettmers

LLM.int8 논문 1저자

Luke Zettlemoyer

공동 저자, 대규모 모델 효율화 연구 기여

저정밀도 추론이 대형 언어 모델에도 적용 가능하다는 점을 분명히 보여준 사례. 이후 4비트 양자화와 메모리 절감형 추론 기법 연구가 빠르게 이어졌습니다.

Int88-bit Integer

32비트 대신 8비트 정수 표현을 사용해 메모리 사용을 줄이는 방식

QuantizationQuantization

수치를 더 낮은 비트 수로 표현해 모델을 경량화하는 기법

OutlierOutlier Feature

양자화 시 정확도 손실을 크게 유발하는 예외적으로 큰 값

bitsandbytesbitsandbytes

LLM 양자화와 저정밀 연산 확산에 큰 역할을 한 라이브러리

AI 발전사