대규모 언어 모델2023

멀티모달 AI (GPT-4V, Gemini)

텍스트, 이미지, 오디오를 통합 처리하는 AI

Vision Transformer(ViT): 이미지를 패치 시퀀스로 변환하여 트랜스포머에 입력 (Wikimedia Commons, CC BY-SA)

멀티모달 AI는 여러 종류의 데이터를 동시에 이해하고 생성합니다. AI가 인간처럼 다중 감각을 갖추기 시작한 시점입니다.

크로스 어텐션

\text{CrossAttn}(Q_{\text{text}}, K_{\text{img}}, V_{\text{img}})

Q_text=텍스트에서 온 Query — '이미지에서 뭘 찾을지'

K_img=이미지에서 온 Key — '이미지의 어느 부분이 관련 있는지'

V_img=이미지에서 온 Value — '해당 부분의 실제 시각 정보'

CrossAttn=서로 다른 모달리티 간 관련도를 계산하는 어텐션

Vision Encoder

이미지를 토큰/패치 임베딩으로 변환하는 인코더 (ViT 등)

크로스 모달 어텐션

서로 다른 모달리티(텍스트·이미지) 간의 관계를 계산

인스트럭션 튜닝

다양한 모달리티의 지시사항을 따르도록 미세 조정

OpenAI 팀

GPT-4V — 최초의 상용 멀티모달 LLM

Google DeepMind

Gemini — 네이티브 멀티모달 아키텍처

AI가 텍스트만이 아닌 시각, 청각까지 이해하게 되면서 활용 범위가 폭발적으로 확장. 의료 영상 분석, 문서 이해, 접근성 도구 등 새로운 응용이 쏟아졌습니다.

ViTVision Transformer

이미지를 패치 시퀀스로 변환하여 트랜스포머에 입력하는 비전 모델

멀티모달Multimodal

텍스트, 이미지, 오디오 등 여러 종류의 데이터를 동시에 처리하는 능력

Cross-AttentionCross-Modal Attention

서로 다른 모달리티(텍스트↔이미지) 간의 관련도를 계산하는 어텐션

패치Patch

이미지를 작은 정사각형(보통 16×16)으로 나눈 조각. ViT의 입력 단위

VLMVision-Language Model

시각-언어 모델. 이미지와 텍스트를 함께 이해하고 생성하는 모델

AI 발전사