AI 비서를 쓰려면 내 데이터를 클라우드로 보내야 한다는 게 지금까지의 상식이었다. 오포(OPPO) AI 센터가 그 상식을 정면으로 뒤집는 모바일 에이전트 ‘X-옴니클로(X-OmniClaw)’를 발표했다. 화면, 카메라, 음성을 동시에 이해하고 사용자의 갤러리 사진까지 기억하는 이 시스템은 클라우드 가상 서버가 아니라 사용자 손에 든 안드로이드 폰 안에서 직접 작동한다. 모바일 AI 에이전트가 어디서, 어떻게 돌아가야 하는지를 다시 묻게 만드는 보고서다.
클라우드 폰이 놓친 ‘내 손 안의 데이터’를 정조준한 엣지 네이티브 구조
X-옴니클로는 사용자의 안드로이드 기기 안에서 핵심 로직이 모두 작동하는 엣지 네이티브(Edge-Native) 모바일 에이전트다. 보고서를 발표한 오포 AI 센터의 멀티-X(Multi-X) 팀은 기존 클라우드 폰 서비스가 결정적인 한계를 안고 있다고 지적한다. 레드핑거(RedFinger), 알리바바의 우잉(Wuying), 텐센트 클라우드 폰(Tencent Cloud Phone) 같은 서비스는 안드로이드를 원격 데이터센터의 가상 머신 위에 띄워 돌리기 때문에 사용자 폰의 카메라, 마이크, 시스템 설정, 그리고 갤러리 같은 로컬 개인 데이터에 닿지 못한다.
X-옴니클로는 이 약점을 정확히 겨냥한다. 보고서는 스마트폰을 자동차에 비유한다. 폰이 자동차라면 X-옴니클로는 차 안의 엔진이고, 클라우드 LLM은 그 엔진에 들어가는 연료다. 고도의 추론이 필요할 때는 외부 LLM을 끌어다 쓰지만, 인식, 기억, 행동의 중심축은 모두 단말기 안에 둔다. 도우바오폰(Doubao Phone, 바이트댄스 계열의 모바일 AI 자동화 시스템)이 앱 사이를 오가며 자동화를 보여주긴 했지만 사용자가 직접 손볼 여지가 적다는 점, 그리고 PC 중심으로 출발한 오픈클로(OpenClaw)가 모바일에 약하다는 점을 보완하려는 시도다.

그림1. X-옴니클로의 전체 시스템 구조도
화면, 카메라, 음성을 한 묶음으로 처리하는 ‘옴니 퍼셉션’
X-옴니클로의 첫 번째 기둥은 음성과 시각, UI 상태를 동시에 받아들이는 통합 인식 모듈 ‘옴니 퍼셉션(Omni Perception)’이다. 보고서가 든 가장 직관적인 예시가 있다. 사용자가 책상 위 물건을 카메라로 비추고 “이거 타오바오에서 얼마야?”라고 묻는다. 이때 시각언어모델(VLM, 사진과 글을 동시에 이해하는 AI 모델)이 카메라 영상에서 그 물건이 에비앙(Evian) 미스트라는 점을 먼저 알아낸 뒤, 사용자의 모호한 질문을 “사용자가 타오바오에서 에비앙 스프레이의 가격을 알고 싶어 한다”는 명확한 의도로 다시 쓴다. 그다음 타오바오를 열어 검색을 진행한다.
이게 가능한 이유는 두 가지 기술적 장치다. 하나는 폰 자체에서 돌아가는 적응형 음향 반향 제거(AEC, Acoustic Echo Cancellation) 기능으로, 폰 스피커에서 나오는 소리가 마이크로 다시 들어가는 간섭을 막아준다. 다른 하나는 시간 정렬 모듈인데, 카메라 영상은 메모리 안의 링 버퍼(ring buffer, 일정 분량만 계속 새로 채우는 임시 저장소)에 비동기로 쌓이고 음성은 같은 시각 도장(timestamp)을 기준으로 영상과 짝지워진다. 사용자가 무엇인가를 보면서 말할 때, 그 시각 정보와 말이 정확히 같은 순간의 묶음으로 처리되는 것이다.
한 번 보여주면 따라 하는 ‘행동 복제’와 딥링크 추출
두 번째 기둥인 ‘옴니 액션(Omni Action)’의 핵심은 사용자의 행동을 한 번만 보고 재사용 가능한 기술로 저장하는 행동 복제(Behavior Cloning, 사용자의 조작 과정을 관찰해 자동화 스크립트로 만드는 기법)다. 사용자가 메이투안(Meituan)의 특가 페이지에 접속하는 과정을 한 번 시연하면, 시스템은 그 페이지를 열기 위한 안드로이드 인텐트(Intent)와 딥링크(deeplink, 앱의 특정 화면을 바로 여는 주소)를 통째로 잡아낸다. 이때 활용하는 도구가 안드로이드의 시스템 명령 ‘dumpsys activity’다. 현재 활성 화면의 정보를 통째로 꺼내 와 어떤 매개변수로 어떤 화면을 호출하는지 그대로 복사해두는 식이다.
이렇게 만들어진 ‘스킬 카드(skill card)’는 다음에 같은 작업이 필요할 때 클릭을 한 단계씩 따라 하지 않고 곧장 목적 화면을 호출한다. 보고서는 전자상거래, 지역 생활 서비스, 숏폼 영상, 검색 등 네 가지 영역에 미리 만들어진 경로를 갖추고 있다고 밝혔다. 만약 정확한 인텐트로 호출이 안 되면 더 단순한 방식으로 단계를 낮추다가, 마지막에는 앱의 작업 스택(task stack)을 복원해 마지막에 봤던 화면을 그대로 띄우는 다단계 보정 전략을 쓴다. 광고가 잔뜩 깔린 어수선한 화면에서도 동작하도록 XML 메타데이터, 화면 상의 시각 인식, 광학 문자 인식(OCR, 화면 글자를 텍스트로 변환하는 기술)을 함께 활용한다.
갤러리 사진을 마크다운으로 정리해 한 번에 영상으로 만든다
세 번째 기둥은 폰 안에 흩어진 데이터를 사용자만의 기억으로 묶어두는 ‘옴니 메모리(Omni Memory)’다. 갤러리 메모리(gallery_memory)라고 이름 붙은 기능은 폰이 한가한 시간에 새로 찍힌 사진을 점진적으로 훑어 내용을 요약한 뒤 마크다운 파일에 차곡차곡 적어둔다. ‘Image-memories.md’라는 파일이 사용자의 시각 기억 저장소가 되는 셈이다. 사진의 픽셀 자체를 저장하는 게 아니라, 그 사진에 무엇이 담겨 있는지를 글로 정리해 둔다.
활용 시나리오는 이렇다. 사용자가 “내 갤러리에서 앵무새 사진을 모아서 영상 한 편으로 만들어줘”라고 말한다. X-옴니클로는 마크다운 메모리에서 앵무새가 들어간 사진의 파일명을 모두 찾아내, 별도 임시 폴더에 모은 다음, 캡컷(CapCut)의 원탭 영상 합성 화면을 딥링크로 바로 호출한다. 이후 멀티탭(multi_tap) 동작으로 사진을 한꺼번에 선택하고 합성 버튼까지 누른다. 보통 몇 분 이상 걸리던 작업이 자동화 한 번으로 끝나는 구조다. 보고서는 갤러리 메모리 기능의 사용 여부와 사용자 프로필의 다른 작업 주입 여부를 모두 사용자가 직접 켜고 끌 수 있도록 설계했다고 밝혔다. 향후에는 사진을 글로 요약하는 작업조차 클라우드를 거치지 않고 단말기 모델로만 처리할 계획이다.
모바일 에이전트의 다음 무대는 ‘디바이스 안’으로 옮겨갈 가능성
X-옴니클로는 아직 정량적 성능 비교나 벤치마크 점수를 제시하지 않은 기술 보고서다. 따라서 이 시스템이 실제로 도우바오폰이나 UI-TARS보다 빠르고 정확한지는 후속 발표를 두고 볼 필요가 있다. 다만 이 보고서가 던지는 더 큰 질문은 ‘모바일 AI 에이전트가 어디에서 돌아야 하는가’다. 클라우드 폰은 어디서든 접속 가능하다는 장점이 있지만 폰 본연의 센서, 카메라, 갤러리에서 출발하는 작업은 본질적으로 단말기 안에 데이터가 있어야 가능하다. 오포가 코드와 자료를 모두 오픈소스로 풀겠다고 한 만큼, 다른 안드로이드 제조사와 개발자들이 같은 그림을 따라갈지 지켜볼 만한 지점이다. 사용자 입장에서는 내 데이터가 폰 밖으로 나가지 않는다는 점만으로도 의미 있는 변화일 가능성이 있다.
FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. X-옴니클로는 어떻게 다운로드해서 쓸 수 있나요?
X-옴니클로는 오포 AI 센터가 깃허브 저장소(github.com/OPPO-Mente-Lab/X-OmniClaw)를 통해 오픈소스로 공개할 예정이라고 밝힌 프로젝트입니다. 일반 사용자가 앱스토어에서 받아 쓰는 정식 서비스 형태가 아니며, 안드로이드 개발 환경에서 직접 빌드하거나 향후 오포 단말기에 기본 탑재되는 방식으로 만나게 될 가능성이 큽니다.
Q2. 클라우드를 안 쓴다고 하는데, 그럼 인터넷 연결이 필요 없나요?
핵심 제어 로직은 폰 안에서 돌지만, 복잡한 추론이 필요한 단계에서는 외부 대형 언어 모델을 호출합니다. 보고서는 이를 자동차의 연료에 비유했습니다. 즉 인터넷 연결은 여전히 필요하지만, 사용자의 갤러리 같은 민감한 개인 데이터는 폰 밖으로 나가지 않도록 설계됐습니다.
Q3. ‘딥링크’와 ‘행동 복제’는 일반 사용자에게 어떤 의미인가요?
쉽게 말해 자주 쓰는 앱의 특정 화면으로 한 번에 점프하게 만드는 지름길입니다. 사용자가 메이투안 특가 페이지를 한 번 보여주면, 다음부터는 “메이투안 특가 열어줘”라는 한마디로 그 화면이 바로 뜨도록 학습합니다. 매번 메인 화면에서 단계별로 들어갈 필요가 사라진다는 뜻입니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





![[스페이스X 상장 SEC 조건 신고서 몰아보기 #5] 공모 자금, 스타십·스타링크·AI 컴퓨트에 사용](https://aimatters.co.kr/wp-content/uploads/2026/06/spacex_fwp_SpaceX_FWP_5.jpg)
![[스페이스X 상장 SEC 조건 신고서 몰아보기 #1] ‘SPCX’로 결정… 나스닥·나스닥 텍사스 동시 상장](https://aimatters.co.kr/wp-content/uploads/2026/06/spacex_fwp_SpaceX_FWP_1.jpg)