대규모 언어 모델2023

QLoRA — 4비트 파인튜닝

양자화된 대형 모델을 적은 메모리로 미세조정할 수 있게 한 대표 기법

QLoRA는 4비트 양자화된 기본 모델 위에 저랭크 어댑터(LoRA)만 학습하는 방식으로, 전체 파인튜닝보다 훨씬 적은 메모리로 대형 언어 모델을 미세조정할 수 있게 만든 기법입니다. 논문은 65B 모델을 단일 48GB GPU에서 파인튜닝할 수 있음을 핵심 결과로 제시합니다.

핵심 개념

4-bit Quantization

모델 가중치를 4비트로 저장해 메모리 사용량을 더 크게 줄이는 방식

LoRA

기존 가중치를 고정하고 작은 저랭크 행렬만 학습하는 효율적 파인튜닝 기법

NF4

정규분포형 가중치에 맞춘 4비트 데이터 타입 — QLoRA의 핵심

주요 인물

T
Tim Dettmers
QLoRA 논문 1저자
A
Ari Holtzman
공동 저자, LLM 학습/평가 연구 기여

영향 & 의의

대형 오픈 웨이트 모델의 저비용 미세조정을 현실적인 작업으로 만든 대표 사례. 이후 경량 파인튜닝 워크플로우에서 자주 참조되는 기준점이 되었습니다.

용어집

QLoRAQuantized Low-Rank Adaptation

양자화된 모델 위에 LoRA를 얹어 저비용으로 파인튜닝하는 기법

LoRALow-Rank Adaptation

원본 가중치를 건드리지 않고 작은 어댑터만 학습하는 미세조정 방식

NF4NormalFloat 4

QLoRA에서 사용한 4비트 양자화 데이터 형식

Paged OptimizerPaged Optimizer

메모리 스파이크를 줄이기 위해 옵티마이저 상태를 효율적으로 관리하는 기법

관련 항목