UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity
인공지능(AI) 분야에서 사용자 인터페이스(UI) 활동을 통해 사용자의 의도를 효과적으로 파악할 수 있는 혁신적인 기술이 등장했다. 스탠포드 대학교와 애플(Apple)의 연구팀이 공동으로 개발한 ‘UI-JEPA’라는 이 프레임워크는 기존의 대규모 언어 모델들과 비교해 훨씬 적은 컴퓨팅 자원으로도 유사한 성능을 달성했다는 점에서 주목을 받고 있다.
UI 이해의 새로운 지평을 열다
UI-JEPA는 사용자가 스마트폰이나 태블릿 등의 기기에서 수행하는 일련의 UI 활동을 분석해 그 의도를 파악하는 기술이다. 이는 단순히 화면에 표시된 내용을 인식하는 것을 넘어, 사용자의 연속적인 행동을 통해 그 목적을 이해하는 것을 목표로 한다. 연구진은 이 기술의 개발을 위해 두 가지 새로운 데이터셋을 구축했다. ‘인텐트 인 더 와일드(Intent in the Wild, IIW)’와 ‘인텐트 인 더 테임(Intent in the Tame, IIT)’이라 명명된 이 데이터셋들은 실제 사용자들의 다양한 UI 활동을 담고 있으며, 각각 219개와 10개의 의도 카테고리로 구성되어 있다.
자기지도학습(Self-Supervised Learning)의 혁신적 적용
UI-JEPA의 핵심은 자기지도학습(Self-Supervised Learning) 기법인 JEPA(Joint Embedding Predictive Architecture)를 UI 이해 분야에 적용했다는 점이다. 이 접근법은 레이블이 없는 대량의 UI 비디오 데이터로부터 추상적인 특징 표현을 학습할 수 있게 해준다. 연구팀은 비디오 프레임의 일부를 마스킹(가리기)하고 이를 예측하는 과정을 통해 모델을 학습시켰다. 특히 시간적 마스킹 전략을 도입해 프레임 간의 의존성을 더욱 효과적으로 포착할 수 있었다. 이렇게 학습된 인코더는 비디오 임베딩을 생성하고, 이는 다시 작은 규모의 언어 모델과 결합되어 최종적으로 사용자 의도를 예측하게 된다.
성능과 효율성의 놀라운 균형
UI-JEPA의 가장 큰 강점은 그 효율성에 있다. 연구진의 실험 결과, UI-JEPA는 GPT-4 터보(GPT-4 Turbo)와 클로드 3.5 소넷(Claude 3.5 Sonnet) 같은 최신 대규모 언어 모델들과 비교해 IIW 데이터셋에서 각각 10.0%와 7.2% 더 높은 성능을 보였다. 더욱 놀라운 점은 이러한 성능 향상이 계산 비용은 50.5배, 처리 시간은 6.6배 감소시킨 상태에서 이뤄졌다는 것이다. 이는 UI-JEPA가 온디바이스(On-device) 환경에서의 활용 가능성을 크게 높였음을 의미한다. 기존의 대규모 언어 모델들이 서버 측 처리를 필요로 해 비용, 지연 시간, 개인정보 보호 등의 문제를 야기했던 것과 달리, UI-JEPA는 이러한 제약을 크게 완화할 수 있는 잠재력을 보여주고 있다.
다양한 활용 가능성
UI-JEPA의 응용 분야는 크게 두 가지로 나눌 수 있다. 첫째는 ‘사용자 피드백 학습(User Feedback Learning)’이다. 이는 디지털 비서와의 상호작용 데이터를 자동으로 필터링하고 레이블링하여 고품질의 학습 데이터셋을 구축하는 데 활용될 수 있다. 이를 통해 디지털 비서의 성능을 지속적으로 개선할 수 있다. 둘째는 ‘멀티모달 의도 상태 추적(Multimodal Intent State Tracking)’이다. 이는 UI-JEPA를 에이전트 프레임워크에 통합하여 다양한 애플리케이션과 모달리티에 걸쳐 사용자의 의도를 능동적으로 추적하는 것이다. 이렇게 수집된 의도 정보는 사용자가 디지털 비서와 상호작용할 때 가장 관련성 높은 의도를 검색하고 적절한 API 호출을 생성하는 데 활용될 수 있다.
UI-JEPA의 개발 과정에서 연구진은 몇 가지 중요한 기술적 혁신을 이루어냈다. 특히 데이터 증강(Data Augmentation) 기법의 적용에 있어 주목할 만한 접근을 보였다. 일반적인 비디오 데이터셋과 달리 UI 비디오는 고정된 방향성을 가지며, 중요한 정보가 화면의 특정 위치에 나타나는 경향이 있다. 이를 고려해 연구진은 기존의 무작위 뒤집기나 자르기 같은 데이터 증강 기법을 사용하지 않았다. 대신, 전체 프레임을 마스킹하는 새로운 시간적 마스킹 전략을 도입했다. 이 접근법은 모델이 프레임 간의 의존성을 더 잘 학습할 수 있게 해주었고, 결과적으로 성능 향상으로 이어졌다.
또한 연구진은 위치 임베딩(Positional Embedding)의 적용에 있어서도 신중한 접근을 취했다. 실험 결과, 비디오 임베딩에 추가적인 위치 정보를 부여하는 것이 오히려 성능을 저하시킬 수 있다는 것을 발견했다. 이는 비디오 인코더가 이미 3D 공간-시간적 위치 정보를 포함하고 있기 때문으로 해석된다. 이러한 발견은 모델의 구조를 더욱 효율적으로 설계하는 데 기여했다.
UI-JEPA가 보여준 혁신적인 성과에도 불구하고, 몇 가지 한계점도 존재한다. 예를 들어, 세밀한 수준의 사용자 의도 예측에는 아직 개선의 여지가 있다. 특히 IIT 데이터셋에서는 상세한 텍스트 인식과 설명이 필요한 작업에서 한계를 보였다. 이를 보완하기 위해 연구진은 광학 문자 인식(OCR) 기술을 추가로 도입했지만, 이 방법의 효과는 OCR의 품질과 프레임 내 텍스트 정보의 존재 여부에 크게 의존한다는 점이 확인되었다.
또한, UI-JEPA는 제로샷(Zero-shot) 학습 상황에서의 성능이 기존의 대규모 언어 모델들에 비해 다소 뒤처지는 모습을 보였다. 이는 UI-JEPA가 익숙하지 않은 애플리케이션에 대한 일반화 능력이 아직 개선되어야 함을 시사한다. 연구진은 이러한 한계를 극복하기 위해 더 다양한 애플리케이션과 상호작용 패턴을 포함하는 확장된 데이터셋의 구축이 필요할 것으로 보고 있다.
그럼에도 불구하고 UI-JEPA는 경량화된 AI 모델의 가능성을 크게 확장시켰다는 점에서 의의가 크다. 이 기술은 특히 프라이버시와 실시간 처리가 중요한 모바일 환경에서 큰 잠재력을 지니고 있다. 향후 이 기술이 더욱 발전한다면, 스마트폰과 같은 모바일 기기에서 직접 고성능의 AI 기능을 구현할 수 있게 될 것으로 기대된다. 이는 더 빠르고, 더 개인화된, 그리고 더 안전한 AI 서비스의 실현을 의미한다.
UI-JEPA의 개발은 AI가 우리의 일상생활에 더욱 깊숙이 통합될 수 있는 길을 열었다. 이 기술은 단순히 기술적 혁신을 넘어, 사용자 경험의 질적 향상과 AI 서비스의 접근성 개선이라는 측면에서 큰 의미를 갖는다. 앞으로 UI-JEPA가 어떻게 발전하고 우리의 디지털 경험을 어떻게 변화시킬지 주목할 필요가 있다. 더 나아가 이러한 기술 발전이 가져올 수 있는 윤리적, 사회적 영향에 대해서도 지속적인 논의와 연구가 필요할 것이다.
애플의 논문은 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기