Search

메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척

메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척
이미지 출처: 오픈클로 깃허브

8일(현지 시각) 메타(Meta) 레이밴(Ray-Ban) 스마트안경을 실시간 AI 비서로 만드는 기술을 공개했다. 사용자가 보는 것을 함께 보고, 말을 알아듣고, 부탁한 일까지 대신 처리해주는 ‘비전클로(VisionClaw)’라는 프로그램이다.

코드 공유 사이트인 깃허브(GitHub)에 무료로 공개된 이 프로그램은 메타의 안경 연결 기술과 구글의 제미나이 AI, 그리고 오픈클로(OpenClaw)라는 작업 처리 프로그램을 조합해 만들어졌다. 스마트안경을 쓰고 AI 버튼을 누른 뒤 말을 걸면, 안경에 달린 카메라로 보이는 장면을 AI가 분석해 설명해주고 요청한 일을 실제로 처리한다.

개발자에 따르면 “지금 뭘 보고 있어?”라고 물으면 제미나이가 안경 카메라를 통해 장면을 보고 설명한다. “우유를 장바구니에 넣어줘”라고 하면 쇼핑 앱에 추가하고, “존한테 늦는다고 메시지 보내줘”라고 하면 카카오톡이나 문자로 전송한다. “근처 좋은 카페 찾아 줘”라고 하면 인터넷에서 검색한 뒤 결과를 음성으로 알려준다.

작동 방식은 이렇다. 메타 레이밴 안경(또는 아이폰 카메라)이 1초에 약 1장의 사진과 음성을 아이폰 앱으로 보낸다. 앱은 이 정보를 구글 제미나이 AI에 전달한다. 제미나이는 음성으로 답하거나, 할 일이 있으면 오픈클로에 지시를 보낸다.

오픈클로는 인터넷 검색, 메시지 보내기, 스마트홈 조작, 메모, 알람 등 56가지 이상의 일을 할 수 있는 프로그램이다. 일이 끝나면 결과를 다시 제미나이로 보내고, 제미나이가 음성으로 결과를 알려준다. 이 모든 과정이 실시간으로 진행된다.

핵심 기술은 구글의 제미나이 라이브 API다. 실시간으로 음성과 영상을 분석하는 AI 기술로, 음성을 먼저 글자로 바꾸지 않고 바로 이해한다. 여기에 오픈클로를 연결하면 제미나이가 실제 행동까지 할 수 있다. 오픈클로 없이는 대화와 장면 설명만 가능하다.

메타 레이밴 안경이 없어도 테스트할 수 있다. 아이폰 앱에서 ‘Start on iPhone’ 버튼을 누르면 아이폰 뒷면 카메라를 사용하는 모드로 바뀐다. 이 모드에서는 아이폰 카메라로 보이는 것을 AI가 인식하고 대화할 수 있다.

영상은 안경에서 초당 24장을 찍지만, 약 1장으로 줄인 뒤 용량을 절반으로 압축해서 제미나이에 보낸다. 아이폰 모드에서도 초당 30장을 찍은 뒤 1장으로 줄여서 보낸다.

이 프로그램을 사용하려면 iOS 17.0 이상, Xcode 15.0 이상, 제미나이 API 키가 필요하다. 메타 레이밴 안경과 오픈클로는 있으면 좋지만, 필수는 아니다. 제미나이 API 키는 구글 AI 스튜디오(Google AI Studio)에서 무료로 받을 수 있다.


서비스에 대한 자세한 사항은 비전클로 깃허브에서 확인 가능하다.

이미지 출처: 비전클로




메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 - AI매터스