기초 이론1986
역전파 알고리즘 (Backpropagation)
루멜하트, 힌튼, 윌리엄스가 다층 신경망 학습법을 정립
다층 신경망 구조: 입력층 → 은닉층 → 출력층 (Wikimedia Commons, CC BY-SA)
역전파는 출력 오차를 네트워크 역방향으로 전파하여 각 가중치의 기울기를 계산합니다. 이를 통해 경사하강법으로 다층 네트워크를 효과적으로 학습할 수 있게 되었으며, 현대 딥러닝의 핵심 알고리즘입니다.
핵심 수식
체인 룰
L=손실(Loss) — 예측과 정답의 차이
w=가중치 — 조정하려는 대상
ŷ=예측 출력값
net=가중합 (입력×가중치의 합산값)
∂L/∂w=가중치가 손실에 미치는 영향 (기울기)
가중치 업데이트
w=가중치 — 업데이트 전 → 후
η=학습률(learning rate) — 한 번에 조정하는 크기
∂L/∂w=기울기 — 손실을 줄이려면 w를 어느 방향으로 얼마나 바꿔야 하는지
핵심 개념
경사하강법(Gradient Descent)
손실 함수의 기울기를 따라 가중치를 조정하는 최적화 기법
체인 룰(Chain Rule)
합성 함수의 미분법 — 역전파의 수학적 기반
손실 함수(Loss Function)
예측과 정답의 차이를 수치화하는 함수 (MSE, Cross-Entropy 등)
주요 인물
제
제프리 힌튼
역전파 공동 저자, '딥러닝의 대부'
데
데이비드 루멜하트
역전파 알고리즘 공동 발표
로
로널드 윌리엄스
역전파 알고리즘 공동 발표
영향 & 의의
다층 신경망을 실질적으로 학습할 수 있게 만든 혁신. 2차 AI 붐을 이끌었으며, 현재까지 거의 모든 딥러닝 모델의 학습 기반입니다.
용어집
SGDStochastic Gradient Descent
확률적 경사하강법. 전체 데이터 대신 일부(미니배치)로 기울기를 계산하여 빠르게 학습
MSEMean Squared Error
평균 제곱 오차. 예측과 정답 차이의 제곱 평균으로 손실을 계산
학습률Learning Rate (η)
가중치를 한 번에 얼마나 조정할지 결정하는 하이퍼파라미터
기울기 소실Vanishing Gradient
역전파 시 기울기가 0에 수렴하여 깊은 층의 가중치가 업데이트되지 않는 문제
에폭Epoch
전체 훈련 데이터를 한 바퀴 도는 단위. 보통 수십~수백 에폭 반복