마이크로소프트(Microsoft) 리서치가 인간과 AI가 실시간으로 협업할 수 있는 웹 에이전트 시스템 ‘매그네틱-UI(Magentic-UI)’를 오픈소스로 공개했다. 마이크로소프트가 19일(현지 시간) 리서치 블로그에 발표한 내용에 따르면, 매그네틱-UI는 완전 자율적인 기존 AI 에이전트와 달리 사용자가 직접 개입하고 제어할 수 있는 인간 중심 설계를 특징으로 한다. 이 시스템은 웹 브라우징, 파이썬과 셸 코드 작성 및 실행, 파일 이해 등의 작업을 수행할 수 있다.
매그네틱-UI의 핵심 기능은 네 가지다. 협력적 계획 수립(co-planning)을 통해 사용자가 AI의 계획을 직접 수정할 수 있고, 협력적 실행(co-tasking)으로 실행 중 언제든 개입해 피드백을 제공하거나 브라우저를 직접 제어할 수 있다. 액션 가드(action guards) 기능은 되돌릴 수 없는 중요한 작업 전에 사용자 승인을 요청하며, 계획 학습(plan learning)을 통해 이전 작업에서 학습한 계획을 저장하고 재사용한다.
시스템은 오케스트레이터(Orchestrator), 웹서퍼(WebSurfer), 코더(Coder), 파일서퍼(FileSurfer) 등 네 개의 전문 AI 에이전트로 구성된다. 오케스트레이터가 전체 작업을 관리하고, 나머지 에이전트들이 웹 브라우징, 코드 실행, 파일 처리 등의 세부 작업을 담당한다. GAIA 벤치마크를 통한 평가에서 시뮬레이션 사용자와 협업한 매그네틱-UI는 자율 모드 대비 정확도가 71% 향상됐다. 작업 완료율이 30.3%에서 51.9%로 증가했으며, 사용자 도움 요청은 전체 작업의 10%에 그쳤다.
안전성 확보를 위해 허용 목록을 통한 웹사이트 접근 제한, 언제든 작업 중단 가능, 도커(Docker) 샌드박싱을 통한 격리된 환경에서의 실행 등의 기능을 제공한다. 크로스사이트 프롬프트 인젝션 공격과 피싱 등에 대한 레드팀 평가에서도 안전성이 확인됐다. 매그네틱-UI는 MIT 라이센스 하에 깃허브(GitHub)와 애저 AI 파운드리 랩스(Azure AI Foundry Labs)에서 제공되며, 마이크로소프트의 오토젠(AutoGen) 프레임워크를 기반으로 구축됐다. 연구팀은 지속적인 오픈 개발을 통해 인간-AI 협업 연구를 발전시켜 나갈 계획이라고 밝혔다.
해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.