Search

오픈AI, 웹브라우저 조작하는 AI ‘오퍼레이터’ 공개…”인간처럼 마우스·키보드 사용”

오픈AI, 웹브라우저 조작하는 AI '오퍼레이터' 공개..."인간처럼 마우스·키보드 사용"
이미지출처: 오픈AI

오픈AI가 웹브라우저를 자유롭게 조작할 수 있는 AI 에이전트 ‘오퍼레이터(Operator)’를 공개했다. 오픈AI 공식 블로그에 따르면, 컴퓨터 유저 에이전트(Computer-Using Agent, CUA) 기술을 기반으로 한 오퍼레이터는 화면을 보고 마우스와 키보드를 사용해 다양한 디지털 작업을 수행한다.



인공지능 기술의 집약체, GPT-4o 기반 컴퓨터 유저 에이전트

오퍼레이터의 핵심 기술인 CUA는 GPT-4o의 시각 처리 능력과 강화학습을 통한 고급 추론 능력이 결합된 모델이다. GUI(Graphical User Interface)와 상호작용하며 사람처럼 화면의 버튼, 메뉴, 텍스트 필드를 조작할 수 있다. 기존 AI와 달리 OS나 웹 전용 API 없이도 디지털 작업을 수행할 수 있어, 인간이 사용하는 모든 디지털 도구를 활용할 수 있다.

웹 작업 성공률 최대 87%…기존 최고 기록 큰 폭 경신

오퍼레이터는 다양한 벤치마크 테스트에서 높은 성과를 달성했다. 웹브라우저를 사용하는 테스트인 웹아리나(WebArena)에서 58.1%, 웹보이저(WebVoyager)에서 87%의 성공률을 기록했다. 특히 컴퓨터 전반적 사용을 평가하는 OSWorld 벤치마크에서는 38.1%를 기록해 이전 최고 기록인 22%를 크게 앞섰다. 다만 인간의 성능인 72.4%와는 아직 격차가 있어 지속적인 개선이 필요한 상황이다.

오퍼레이터의 실제 사용 사례와 한계점

오픈AI는 오퍼레이터의 성능을 검증하기 위해 다양한 실제 사용 사례를 테스트했다. UI 상호작용이 필요한 작업에서는 브리태니카 백과사전 검색, 타겟 할인 상품 확인 등의 작업을 90% 이상 성공적으로 수행했다. 단순하지만 반복적인 작업인 투두리스트 작성이나 스포티파이 플레이리스트 생성도 100% 성공률을 보였다. 그러나 익숙하지 않은 UI나 텍스트 편집 작업에서는 40% 정도의 낮은 성공률을 기록했다.

3중 안전장치로 AI 에이전트 위험 대비

오퍼레이터는 악용, 모델 실수, 잠재적 위험 등 세 가지 주요 안전 위험에 대응하도록 설계됐다. 불법적이거나 규제된 활동을 거부하고, 도박·성인 사이트 등은 사전에 차단된다. 자동화된 안전 점검 시스템이 실시간으로 사용자 상호작용을 검토하며, 아동 안전과 기만적 활동을 감지하는 파이프라인도 구축했다. 이메일 전송이나 상품 구매와 같은 외부 영향이 있는 작업은 사용자 확인을 필수로 하며, 은행 거래나 민감한 의사결정이 필요한 작업은 수행하지 않는다.

해당 기사의 원문은 오픈AI 공식 블로그에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다. 




오픈AI, 웹브라우저 조작하는 AI ‘오퍼레이터’ 공개…”인간처럼 마우스·키보드 사용” – AI 매터스 l AI Matters