Search

베이징대 AI, 유튜브 강좌 보고 컴퓨터 조작 성공률 2배 높여… 근데 어떻게 접속?

Video2GUI Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
이미지 출처: https://ideogram.ai/

AI에게 컴퓨터 쓰는 법을 가르치려면 수만 명이 직접 화면을 클릭하며 데이터를 만들어야 했다. 그런데 베이징대학교(Peking University)와 샤오미(Xiaomi) 연구팀이 다른 방법을 찾아냈다. 사람들이 이미 유튜브(YouTube)에 올려둔 소프트웨어 강좌 영상 416만 개를 AI에게 그대로 보여주는 방식이다. 이렇게 학습한 AI는 안드로이드(Android) 화면 자동 조작 성공률이 16.4%에서 31.9%로 두 배 가까이 뛰었다.

5억 영상에서 추출한 1,200만 개 디지털 행동 교과서

베이징대와 샤오미 LLM 코어 팀이 ICML 2026에서 발표한 ‘Video2GUI’ 논문은 인터넷 영상을 AI 학습용 데이터로 자동 변환하는 새로운 방법을 제시했다. 이 방법으로 만든 WildGUI 데이터셋은 1,200만 개의 화면 조작 흐름과 1억 2,450만 장의 스크린샷을 담고 있다. 1,500개 이상의 앱과 웹사이트를 다루는 역대 최대 규모의 공개 데이터다. GUI 에이전트(GUI Agent)란 사람 대신 컴퓨터 화면을 보고 클릭, 입력, 스크롤을 수행하는 AI 비서를 말한다. 기존에는 사람이 직접 화면을 조작하며 일일이 데이터를 만들어야 했기에, 한 번에 수십만 개 단위의 데이터를 모으는 것이 한계였다.

연구팀은 유튜브에 올라온 5억 개의 영상 메타데이터에서 출발했다. 1단계로 영상 제목과 설명을 분석해 소프트웨어 조작 강좌만 추리는 작업을 거쳐 2천만 개로 줄였다. 2단계로 영상의 화질, 설명의 명확성, 주제 적합성을 점수로 평가해 다시 416만 개로 압축했다. 누적 30만 시간 분량이다. 이 모든 과정을 AI가 자동으로 처리한다. 5억 영상을 일일이 사람이 본다면 1만 명이 30년 넘게 봐야 가능한 양이다.

영상에서 클릭 좌표까지 뽑아내는 3단계 자동화 파이프라인

Video2GUI 파이프라인의 핵심은 유튜브 영상에서 정확한 클릭 좌표까지 자동으로 추출한다는 점이다. 보통 영상은 화질이 압축돼 있어 마우스 커서 위치를 정확히 잡기 어렵지만, 연구팀은 구글(Google)의 차세대 모델 제미나이 3 프로(Gemini 3 Pro)를 활용해 이 문제를 풀었다.

먼저 영상에서 작업 지시문, 시간 표시, 행동 종류, 행동 이유를 자동으로 뽑아낸다. 예를 들어 ‘아마존(Amazon)에서 운동화 사기’라는 영상이라면 0:02에 검색창 클릭, 0:05에 운동화 이름 입력 같은 식으로 정리된다. 이후 해당 시점 전후 0.5초의 고해상도 프레임을 따로 추출해 정확한 화면 좌표를 매핑한다. 사람이 직접 확인한 결과 이 방식의 정확도는 95% 이상으로 측정됐다. 영상 속 인간의 손짓을 컴퓨터가 알아들을 수 있는 좌표 데이터로 옮기는 일이 자동화된 셈이다.

안드로이드 자동 조작 성공률 16.4%에서 31.9%로

그림1. OSWorld·AndroidWorld 성공률 비교, WildGUI 사전학습의 성능 향상

그림1. OSWorld·AndroidWorld 성공률 비교, WildGUI 사전학습의 성능 향상



이렇게 만든 데이터로 학습시킨 결과 AI의 컴퓨터 조작 실력은 모든 평가에서 큰 폭으로 올랐다. 알리바바(Alibaba)가 만든 Qwen2.5-VL 모델의 경우 OSWorld-G라는 화면 인식 평가에서 정확도가 27.3%에서 53.7%로 26.4포인트 상승했다. 거의 두 배 차이다. 샤오미가 만든 Mimo-VL은 같은 평가에서 67.6점을 기록해 구글의 제미나이 2.5 프로(Gemini 2.5 Pro, 45.2점)를 비롯한 주요 상용 모델을 앞질렀다.

실제 환경 평가에서도 결과는 비슷했다. 안드로이드 운영체제에서 실제 앱을 조작하는 AndroidWorld 평가에서 기본 모델 성공률은 16.4%에 그쳤지만, WildGUI로 학습한 모델은 31.9%까지 올라갔다. 사람이 시키는 작업 열 개 중 세 개를 AI가 스스로 완수했다는 뜻이다. 데스크톱 환경 평가인 OSWorld에서도 8.3%에서 12.3%로 4포인트 상승했다. 흥미로운 점은 데이터 양을 늘릴수록 성능이 계속 올라간다는 사실이다. 2,000억 토큰까지 늘려도 한계점이 보이지 않았다. 더 많은 영상을 학습시키면 더 똑똑해질 여지가 남아 있다.

영상 데이터가 사람이 만든 데이터를 이긴 이유

연구팀은 같은 방식으로 만든 다른 데이터셋과도 품질을 비교했다. 다섯 명의 컴퓨터 과학 박사 및 석사 과정 평가자가 영상 품질과 작업 흐름 품질을 각각 5점 만점으로 평가한 결과, WildGUI는 작업 흐름 품질에서 4.62점을 받아 기존 최고 수준이었던 VideoAgentTrek(4.05점)과 TongUI(3.35점)를 모두 앞섰다. 영상 품질도 필터링 전 1.22점에서 최종 4.45점으로 약 3.6배 향상됐다. 영상에 담긴 실제 사용 흐름을 그대로 학습시키니, 사람이 인위적으로 만든 데이터보다 오히려 더 풍부한 패턴을 가르칠 수 있었던 것이다. 책상에서 시뮬레이션으로 만든 데이터와 실제 사람이 일하면서 쌓아 올린 영상 데이터의 차이가 그대로 드러난 결과다.

우리가 본 그 유튜브 강좌가 AI 비서의 교과서가 된다

이번 연구는 AI 학습 데이터의 게임 규칙이 바뀌고 있음을 보여준다. 양질의 학습 데이터는 사람이 손으로 라벨링해야만 얻을 수 있다는 통념이 흔들리고 있는 것이다. 인터넷에 이미 쌓여 있는 거대한 영상 더미가 그 역할을 대신할 가능성이 열렸다. 누군가 자신의 채널에 올린 ‘엑셀로 가계부 만드는 법’, ‘포토샵으로 배경 지우기’ 같은 평범한 강좌 영상이 곧 AI의 교과서가 되는 시대가 다가오고 있다.

지금은 컴퓨터 조작 자동화에 한정된 결과지만, 이 접근법이 자리잡으면 영향 범위는 더 넓어질 가능성이 있다. 사람이 컴퓨터를 쓰는 모든 장면이 잠재적 학습 데이터로 변할 수 있다는 뜻이다. 다만 영상 속 화면에 담긴 개인정보나 저작권 문제는 앞으로 두고 볼 필요가 있다. 연구팀은 WildGUI 데이터셋과 Video2GUI 파이프라인을 공개하겠다고 밝혀, 다른 기업과 연구자들의 후속 작업이 빠르게 이어질 전망이다.

FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. GUI 에이전트가 정확히 무엇인가요?

A. GUI 에이전트는 사람 대신 컴퓨터나 스마트폰 화면을 보고 직접 클릭, 입력, 스크롤을 수행하는 AI 비서를 말합니다. 예를 들어 “아마존에서 운동화 사줘”라고 말하면 실제 화면을 보면서 검색하고 선택하고 결제까지 진행하는 식의 자동화를 목표로 합니다.

Q. 유튜브 영상으로 AI를 학습시키면 무엇이 좋아지나요?

A. 기존에는 사람이 직접 클릭 데이터를 일일이 만들어야 해서 비용이 많이 들고 양도 적었습니다. 유튜브 영상을 활용하면 수백만 개의 실제 사용 사례를 자동으로 모을 수 있어 학습 데이터가 폭발적으로 늘어납니다. 이번 연구에서는 1,200만 개의 작업 흐름을 모았습니다.

Q. 이런 AI는 언제쯤 실생활에 적용될까요?

A. 정확한 시점은 정해지지 않았지만, 이번에 공개될 예정인 WildGUI 데이터셋이 여러 회사의 AI 비서 개발에 활용될 가능성이 큽니다. 가까운 미래에 “문서 만들어줘”, “항공권 예약해줘” 같은 요청을 컴퓨터가 직접 화면을 보며 처리하는 서비스가 빠르게 늘어날 전망입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.