• Home
  • AI Report
  • 마이크로소프트의 혁신, GUI 이해하는 AI 도구 ‘옴니파서’ 공개…GPT-4V 성능 한계 돌파

마이크로소프트의 혁신, GUI 이해하는 AI 도구 ‘옴니파서’ 공개…GPT-4V 성능 한계 돌파

OmniParser for Pure Vision Based GUI Agent
이미지 출처: 미드저니 생성

OmniParser for Pure Vision Based GUI Agent

마이크로소프트가 순수 컴퓨터 비전 기술만으로 사용자 인터페이스(UI)의 모든 상호작용 요소를 정확하게 인식하고 처리할 수 있는 ‘옴니파서(OmniParser)’를 개발했다. 이는 GPT-4V와 같은 대규모 시각언어 모델의 UI 조작 능력을 획기적으로 개선할 것으로 기대를 모으고 있다.

AI 기반 GUI 에이전트의 새로운 지평

옴니파서의 등장은 AI 기반 GUI 에이전트 개발의 새로운 장을 열었다는 평가를 받고 있다. 기존의 AI 에이전트들은 HTML이나 안드로이드의 뷰 계층구조와 같은 추가 정보에 크게 의존했지만, 옴니파서는 이러한 제약에서 벗어나 순수하게 시각적 정보만으로도 뛰어난 성능을 보여주고 있다.

연구를 주도한 야동 루(Yadong Lu) 마이크로소프트 리서치 연구원은 “현재 GPT-4V의 성능이 화면 파싱 기술의 한계로 제대로 발휘되지 못하고 있었다”며 “옴니파서는 이러한 제약을 극복하고 AI의 UI 이해 능력을 한 단계 높이는 획기적인 발전”이라고 설명했다.

혁신적인 성능 입증

옴니파서의 우수성은 다양한 벤치마크 테스트를 통해 입증됐다. 스크린스팟(ScreenSpot) 벤치마크에서는 모바일, 데스크톱, 웹 플랫폼 전반에 걸쳐 기존 GPT-4V 대비 큰 폭의 성능 향상을 보였다. 특히 텍스트 요소 인식에서는 93.9%, 아이콘 요소 인식에서는 57.0%의 정확도를 기록했는데, 이는 기존 모델들의 성능을 크게 상회하는 수치다.

마인드투웹(Mind2Web) 벤치마크에서도 HTML을 활용한 기존 방식을 뛰어넘는 결과를 달성했다. 크로스-웹사이트 카테고리에서 41.0%, 크로스-도메인 카테고리에서 45.5%의 정확도를 보여, HTML 정보를 활용한 GPT-4V의 성능(각각 38.0%, 42.4%)을 뛰어넘었다.

더욱 주목할 만한 점은 안드로이드 전용 벤치마크인 AITW에서도 전문 모델들을 능가하는 성과를 거뒀다는 것이다. 전체 태스크에서 57.7%의 성공률을 기록해, 기존 최고 성능이었던 GPT-4V의 53.0%를 크게 앞섰다.

혁신적 기술의 핵심 요소

옴니파서의 성능 향상은 두 가지 혁신적인 기술에 기반한다. 첫째는 상호작용 가능한 아이콘을 정확하게 탐지하는 기술이다. 연구팀은 인기 웹사이트들의 DOM 트리에서 추출한 67,000개의 스크린샷으로 데이터셋을 구축하고, 이를 통해 고성능 탐지 모델을 학습시켰다.

“우리는 현재 공개된 웹사이트에서 100,000개의 균일한 샘플을 추출하고, 각 URL의 DOM 트리에서 상호작용 가능한 영역의 경계 상자를 수집했습니다”라고 연구팀은 설명했다. 이렇게 구축된 데이터셋은 95%를 훈련에, 5%를 검증에 사용했으며, 20 에포크 동안의 훈련을 통해 높은 정확도를 달성했다.

둘째는 아이콘의 기능적 의미를 정확하게 해석하는 기술이다. 연구팀은 7,000여 개의 아이콘-설명 쌍으로 이루어진 데이터셋을 구축하고, 이를 기반으로 아이콘의 의미를 정확하게 파악하는 모델을 개발했다. 이 모델은 각 아이콘의 시각적 특징뿐만 아니라 실제 기능까지 이해할 수 있다.

연구팀은 옴니파서가 여전히 몇 가지 개선이 필요한 영역이 있다고 밝혔다. 주요 과제로는 반복되는 아이콘이나 텍스트 처리, 경계 상자의 더 세밀한 예측, 맥락을 고려한 아이콘 해석 등이 지목됐다.

특히 GPT-4V의 응답 로그 분석 결과, 옴니파서가 제공하는 결과물에 여러 개의 반복된 아이콘이나 텍스트가 포함되어 있을 때 올바른 예측에 실패하는 경우가 많았다. 연구팀은 이러한 문제를 해결하기 위해 반복 요소에 대한 더 세밀한 설명을 추가하는 방안을 검토 중이다.

또한 OCR 모듈이 하이퍼링크나 클릭 가능한 텍스트 영역을 정확하게 식별하지 못하는 문제도 지적됐다. 연구팀은 OCR과 상호작용 가능한 영역 탐지를 하나의 모듈로 통합하여 이러한 한계를 극복할 계획이다.

미래 전망과 산업계 영향

마이크로소프트의 이번 연구 성과는 AI 기반 GUI 자동화 분야에 큰 영향을 미칠 것으로 예상된다. 특히 HTML이나 뷰 계층구조와 같은 추가 정보 없이도 뛰어난 성능을 보인다는 점에서, 다양한 플랫폼과 애플리케이션에서의 활용 가능성이 주목받고 있다.

마이크로소프트의 제너레이티브 AI 부서 옐롱 셴(Yelong Shen) 연구원은 “옴니파서는 PC와 모바일을 아우르는 범용 UI 파싱 도구로서 큰 잠재력을 가지고 있다”며 “이를 통해 AI 기반 GUI 자동화 기술이 한 단계 도약할 것”이라고 전망했다.

향후 연구팀은 더 많은 데이터셋을 확보하고 모델을 개선하여 옴니파서의 성능을 지속적으로 향상시킬 계획이다. 또한 오픈소스 커뮤니티와의 협력을 통해 기술 발전을 가속화할 예정이다.

이번 연구는 컴퓨터 비전 기술만으로도 복잡한 UI를 이해하고 조작할 수 있다는 가능성을 보여주었다는 점에서 의미가 크다. 이는 향후 AI 에이전트의 자율성과 범용성을 크게 향상시킬 것으로 기대된다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




마이크로소프트의 혁신, GUI 이해하는 AI 도구 ‘옴니파서’ 공개…GPT-4V 성능 한계 돌파 – AI 매터스