대규모 언어 모델2023
멀티모달 AI (GPT-4V, Gemini)
텍스트, 이미지, 오디오를 통합 처리하는 AI
Vision Transformer(ViT): 이미지를 패치 시퀀스로 변환하여 트랜스포머에 입력 (Wikimedia Commons, CC BY-SA)
멀티모달 AI는 여러 종류의 데이터를 동시에 이해하고 생성합니다. AI가 인간처럼 다중 감각을 갖추기 시작한 시점입니다.
핵심 수식
크로스 어텐션
Q_text=텍스트에서 온 Query — '이미지에서 뭘 찾을지'
K_img=이미지에서 온 Key — '이미지의 어느 부분이 관련 있는지'
V_img=이미지에서 온 Value — '해당 부분의 실제 시각 정보'
CrossAttn=서로 다른 모달리티 간 관련도를 계산하는 어텐션
핵심 개념
Vision Encoder
이미지를 토큰/패치 임베딩으로 변환하는 인코더 (ViT 등)
크로스 모달 어텐션
서로 다른 모달리티(텍스트·이미지) 간의 관계를 계산
인스트럭션 튜닝
다양한 모달리티의 지시사항을 따르도록 미세 조정
주요 인물
O
OpenAI 팀
GPT-4V — 최초의 상용 멀티모달 LLM
G
Google DeepMind
Gemini — 네이티브 멀티모달 아키텍처
영향 & 의의
AI가 텍스트만이 아닌 시각, 청각까지 이해하게 되면서 활용 범위가 폭발적으로 확장. 의료 영상 분석, 문서 이해, 접근성 도구 등 새로운 응용이 쏟아졌습니다.
용어집
ViTVision Transformer
이미지를 패치 시퀀스로 변환하여 트랜스포머에 입력하는 비전 모델
멀티모달Multimodal
텍스트, 이미지, 오디오 등 여러 종류의 데이터를 동시에 처리하는 능력
Cross-AttentionCross-Modal Attention
서로 다른 모달리티(텍스트↔이미지) 간의 관련도를 계산하는 어텐션
패치Patch
이미지를 작은 정사각형(보통 16×16)으로 나눈 조각. ViT의 입력 단위
VLMVision-Language Model
시각-언어 모델. 이미지와 텍스트를 함께 이해하고 생성하는 모델