자연어 처리2018

BERT — 양방향 사전학습

구글 제이콥 데블린이 마스크드 언어 모델링 기반의 사전학습 기법을 발표

BERT: 양방향 인코더 — 마스크된 토큰을 좌우 문맥으로 동시 예측 (Wikimedia Commons)

BERT는 문장의 양방향 문맥을 동시에 이해하는 사전학습 모델입니다. 일부 단어를 마스킹하고 예측하는 방식으로 학습하며, 파인튜닝을 통해 다양한 NLP 과제에서 최고 성능을 달성했습니다.

마스크드 언어 모델링

P(w_i | w_1, \ldots, w_{i-1}, \texttt{[MASK]}, w_{i+1}, \ldots, w_n)

P(wᵢ | ...)=마스크된 위치에 올 단어의 확률

wᵢ=예측할 단어 (가려진 토큰)

[MASK]=가려진 위치 — 이 자리에 뭐가 올지 맞추는 게 학습 과제

w₁...wₙ=주변 문맥 단어들 — 좌우 양방향 모두 참조

마스크드 언어 모델링(MLM)

문장에서 일부 토큰을 가리고 예측하는 사전학습 과제

사전학습 + 파인튜닝

대규모 범용 데이터로 학습 후, 특정 과제에 맞게 미세 조정

양방향 문맥

마스크 위치의 좌우 문맥을 동시에 참조 (GPT의 단방향과 대비)

제

제이콥 데블린

BERT 논문 1저자 (Google AI Language)

NLP의 '사전학습 → 파인튜닝' 패러다임을 확립. 11개 NLP 벤치마크를 동시에 갱신하며, 이후 RoBERTa, ALBERT 등 수많은 변형이 등장했습니다.

BERTBidirectional Encoder Representations from Transformers

트랜스포머 기반 양방향 인코더. 좌우 문맥을 동시에 참조하여 언어를 이해

MLMMasked Language Modeling

마스크드 언어 모델링. 문장의 일부를 가리고 맞추는 BERT의 핵심 학습 방식

NSPNext Sentence Prediction

다음 문장 예측. 두 문장이 이어지는지 판단하는 BERT의 보조 학습 과제

Fine-tuningFine-tuning (미세 조정)

사전학습된 모델을 특정 과제에 맞게 추가 학습하는 기법

토큰Token

텍스트의 최소 처리 단위. 단어, 서브워드, 또는 문자 수준으로 분할

AI 발전사