AI 에이전트2024
Computer Use — 화면을 조작하는 에이전트
에이전트가 API를 넘어 실제 UI를 보고 클릭·입력하는 단계로 확장
Computer Use는 모델이 화면을 관찰하고, 마우스를 클릭하고, 키보드를 입력하며, 일반 소프트웨어 인터페이스를 직접 조작하는 형태의 에이전트 능력입니다. 이는 기존 API 중심 자동화와 달리, 사람이 사용하는 화면 위에서 범용 작업을 수행하려는 시도라는 점에서 큰 전환점이었습니다.
핵심 개념
GUI Agent
그래픽 인터페이스를 인식하고 조작하는 에이전트
Grounded Action
현재 화면 상태를 근거로 좌표 클릭·입력 같은 구체 행동을 결정하는 것
Long-Horizon Task
여러 단계와 상태 변화를 거쳐야 완료되는 긴 작업
주요 인물
A
Anthropic
2024년 Claude용 computer use 도구 공개
영향 & 의의
에이전트의 적용 범위를 API가 없는 레거시 시스템과 일반 데스크톱 작업까지 넓힌 사건. 동시에 신뢰성, 안전성, 승인 절차, 관찰 가능성의 중요성을 크게 부각시켰습니다.
용어집
Computer UseComputer Use
모델이 컴퓨터 화면을 보고 조작할 수 있게 하는 도구 계층
GUIGraphical User Interface
사용자가 버튼·창·입력창으로 상호작용하는 시각적 인터페이스
Browser AutomationBrowser Automation
브라우저 상호작용을 자동화하는 기법. 컴퓨터 사용형 에이전트의 하위 사례
GuardrailGuardrail
에이전트의 위험한 행동을 제한하거나 승인 절차를 넣는 안전 장치