중국 알리바바 그룹의 통이랩(Tongyi Lab)이 개발한 GUI-Owl과 Mobile-Agent-v3가 컴퓨터 화면 자동 조작 분야에서 획기적인 성과를 거두었다. 이 시스템은 사람처럼 컴퓨터와 스마트폰 화면을 보고 클릭, 타이핑 등의 작업을 자동으로 수행할 수 있다.
알리바바에서 발표한 연구 논문에 따르면, GUI-Owl-7B 모델은 AndroidWorld 벤치마크에서 66.4점, OSWorld 벤치마크에서 29.4점을 기록했다. Mobile-Agent-v3 프레임워크와 결합했을 때는 AndroidWorld에서 73.3점, OSWorld에서 37.7점까지 성능이 향상되어 오픈소스 모델 기반 에이전트 프레임워크 중 새로운 최고 성능을 달성했다. 이는 동급 크기의 다른 오픈소스 모델들을 크게 앞서는 결과다.

클라우드 기반 가상환경에서 AI가 스스로 학습 데이터 생성
연구진은 대규모 환경 인프라를 구축하여 GUI 상호작용 데이터를 수집했다. 이 인프라는 알리바바 클라우드 기반의 클라우드 폰과 클라우드 컴퓨터 기술을 활용하여 Android, Ubuntu, macOS, Windows 등 다양한 운영체제를 포괄한다.
핵심은 ‘자체 진화 GUI 궤적 생성 프레임워크’다. 이 시스템은 고품질 쿼리 생성을 통해 실제 사용자 상호작용을 모방하고, GUI-Owl과 Mobile-Agent-v3가 가상 환경에서 상호작용하도록 한 뒤, 정확성 판단을 통해 데이터 품질을 보장한다. 어려운 시나리오에 대해서는 쿼리별 가이던스 생성을 제공한다.
모바일 앱의 경우, 인간이 주석을 단 방향성 비순환 그래프(DAG)를 활용해 현실적인 내비게이션 흐름을 모델링하고 다중 제약 사용자 쿼리를 캡처하는 스크린샷-액션 프레임워크를 개발했다. 컴퓨터 애플리케이션의 경우, 원자적 조작 기술과 소프트웨어 조작 경로라는 두 가지 주요 과제를 해결하기 위해 접근성 트리와 심층 검색 체인을 활용했다.
4개 전문 에이전트의 협업으로 복잡한 장기 작업 처리
Mobile-Agent-v3는 각각 다른 역할을 하는 4개의 전문화된 에이전트로 구성된다. 매니저 에이전트는 전략적 계획자 역할을 하며, 초기화 시 외부 지식을 활용해 고수준 명령을 순서가 있는 하위 목표 리스트로 분해하고, 실행 중에는 결과와 피드백을 바탕으로 계획을 업데이트한다.
워커 에이전트는 전술적 실행자로서 현재 GUI 상태, 이전 피드백, 누적된 노트를 고려해 가장 관련성이 높고 실행 가능한 하위 목표를 선택하여 수행한다. 리플렉터 에이전트는 자기 교정 메커니즘으로 작동하며, 워커의 의도된 결과와 실제 상태 전환을 비교하여 성공 또는 실패를 분류하고 상세한 인과적 피드백을 생성한다.
노트테이커 에이전트는 지속적인 맥락 메모리를 유지한다. 성공적인 작업에서만 트리거되어 중요한 화면 요소들(예: 코드, 자격 증명)을 추출하고 저장한다. 누적된 메모리는 향후 단계에서 계획과 실행을 모두 지원한다.
궤적 수준 강화학습으로 실제 환경 성능 최적화
GUI-Owl은 실제 환경과의 직접적인 상호작용을 통해 학습할 수 있는 비동기식 강화학습 프레임워크를 개발했다. 특히 온라인 환경 강화학습을 위한 궤적 인식 상대 정책 최적화(TRPO)를 도입하여 OSWorld 벤치마크에서 34.9점을 달성했다.
실제 사용자 작업은 종종 길고 가변적인 길이의 액션 시퀀스로 특징지어진다. 이런 시나리오에서 보상은 일반적으로 희소하고 작업 완료 시에만 지연된 성공 신호로 사용할 수 있다. TRPO는 작업 완료 후 전체 궤적을 평가하여 정규화된 이점 추정치를 계산하고, 이를 해당 궤적의 모든 단계에 균등하게 분배한다.
성공한 궤적의 희소성을 고려해 리플레이 버퍼를 도입하여 훈련을 안정화했다. 이 버퍼는 과거의 성공한 궤적들을 작업 ID별로 저장하며, 생성된 궤적 그룹이 모두 실패할 경우 실패한 궤적 하나를 같은 작업의 성공한 궤적으로 교체한다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q: GUI-Owl이 기존 GUI 자동화 방법과 다른 점은 무엇인가요?
A: 기존 방법들은 폐쇄형 모델에 기반한 에이전트 프레임워크이거나 엔드투엔드 모델 성능에만 초점을 맞췄습니다. GUI-Owl은 인식, 그라운딩, 추론, 계획, 행동 실행을 단일 정책 네트워크 내에서 통합하고, 대규모 다양한 GUI 상호작용 데이터에 대한 광범위한 후훈련을 통해 개발되었습니다.
Q: 자체 진화 궤적 생성이 왜 중요한가요?
A: GUI 자동화 작업은 온라인 상호작용 환경에서 작동하기 때문에 궤적 데이터의 수동 주석 작업이 매우 지루하고 비용이 많이 듭니다. 자체 진화 시스템은 GUI-Owl 자체의 능력을 활용해 롤아웃을 통해 새로운 궤적을 지속적으로 생성하고 정확성을 평가하여 고품질 훈련 데이터를 얻습니다.
Q: Mobile-Agent-v3의 다중 에이전트 구조의 장점은 무엇인가요?
A: 복잡한 GUI 작업을 여러 전문화된 역할로 분해하여 각 에이전트가 고유한 하위작업에 집중할 수 있게 합니다. 각 에이전트가 서로 다른 관점에서 현재 단계에 접근하고 편향을 효과적으로 피할 수 있으며, 부분 관찰과 추론 흔적을 공유하여 복잡하고 장기적인 자동화 워크플로우를 처리할 수 있습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Mobile-Agent-v3: Foundamental Agents for GUI Automation
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.