자연어 처리1997

LSTM — 장단기 기억 네트워크

호크라이터와 슈미트후버가 장기 의존성 문제를 해결하는 RNN 구조를 제안

LSTM 셀 구조: 망각·입력·출력 게이트와 셀 상태 흐름 (Wikimedia Commons, CC BY-SA)

LSTM 셀 구조: 망각·입력·출력 게이트와 셀 상태 흐름 (Wikimedia Commons, CC BY-SA)

LSTM은 셀 상태(Cell State)와 게이트 메커니즘으로 중요한 정보는 오래 기억하고 불필요한 정보는 잊는 순환 신경망입니다. 1997년 원본 논문에서 입력·출력 게이트를 제안했고, 1999~2000년 Gers 등이 망각 게이트를 추가하여 현대적 LSTM이 완성되었습니다. 기존 RNN의 기울기 소실 문제를 해결하여 기계 번역, 음성 인식, 시계열 예측 등에서 2017년 Transformer 등장 전까지 시퀀스 모델의 표준이었습니다.

핵심 수식

망각 게이트
ft=σ(Wf[ht1,xt]+bf)f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)
fₜ=망각 값 (0~1) — 0이면 완전히 잊고, 1이면 완전히 기억
Wf=망각 게이트의 가중치 행렬
hₜ₋₁=이전 시점의 출력 (직전 기억의 요약)
xₜ=현재 시점의 입력
σ=시그모이드 — 결과를 0~1로 압축 (게이트 열림 정도)
셀 업데이트
Ct=ftCt1+itC~tC_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t
Cₜ=현재 셀 상태 — 장기 기억의 핵심
fₜ ⊙ Cₜ₋₁=이전 기억 중 유지할 부분 (망각 게이트 적용)
iₜ ⊙ C̃ₜ=새로 저장할 정보 (입력 게이트 × 후보 기억)
=원소별 곱(element-wise) — 각 칸마다 개별 적용
출력
ht=ottanh(Ct)h_t = o_t \odot \tanh(C_t)
hₜ=현재 시점의 출력 — 다음 시점으로 전달되는 '기억 요약'
oₜ=출력 게이트 (0~1) — 셀 상태 중 얼마나 내보낼지
tanh(Cₜ)=셀 상태를 -1~1로 정규화

핵심 개념

순환 신경망(RNN)

이전 시간 단계의 출력을 현재 입력에 다시 사용하는 신경망 — 시퀀스 데이터 처리의 기본

망각 게이트(Forget Gate)

셀 상태에서 어떤 정보를 버릴지 결정하는 시그모이드 게이트

셀 상태(Cell State)

정보를 장기간 전달하는 컨베이어 벨트 — LSTM의 핵심 구조

주요 인물

제프 호크라이터
LSTM 발명 (1997, 뮌헨 공과대학)
위르겐 슈미트후버
LSTM 공동 발명, 순환 신경망 연구의 선구자

영향 & 의의

시퀀스 데이터 처리의 표준이 되어 구글 번역, Siri, 주가 예측 등에 광범위하게 활용되었습니다. Transformer가 등장하기까지 20년간 NLP의 핵심 아키텍처였습니다.

용어집

LSTMLong Short-Term Memory

장단기 기억 네트워크. 게이트 메커니즘으로 장기 의존성을 학습하는 RNN 변형

RNNRecurrent Neural Network

순환 신경망. 이전 출력을 다음 입력에 재사용하여 시퀀스 데이터를 처리

GRUGated Recurrent Unit

LSTM의 간소화 버전. 망각·입력 게이트를 하나로 합쳐 파라미터가 적음

시퀀스Sequence

순서가 있는 데이터 (문장, 시계열, 음성 등). 앞뒤 맥락이 중요

기울기 소실Vanishing Gradient

긴 시퀀스에서 역전파 시 기울기가 사라지는 문제. LSTM이 이를 해결

관련 항목