중국 알리바바 그룹의 통이랩(Tongyi Lab)이 개발한 GUI-Owl과 Mobile-Agent-v3가 컴퓨터 화면 자동 조작 분야에서 획기적인 성과를 거두었다. 이 시스템은 사람처럼 컴퓨터와 스마트폰 화면을 보고 클릭,…
마이크로소프트가 순수 컴퓨터 비전 기술만으로 사용자 인터페이스(UI)의 모든 상호작용 요소를 정확하게 인식하고 처리할 수 있는 ‘옴니파서(OmniParser)’를 개발했다. 이는 GPT-4V와 같은 대규모 시각언어 모델의 UI…