허깅페이스, 맥북에서도 실행 가능한 경량 로봇 AI 모델 '스몰VLA' 출시

허깅페이스(Hugging Face)가 로봇공학을 위한 경량 오픈소스 비전-언어-액션(Vision-Language-Action) 모델 ‘스몰VLA(SmolVLA)’를 3일(현지 시간) 공개했다. 허깅페이스 블로그에 공개된 내용에 따르면, 스몰VLA-450M은 4억 5천만 개의 매개변수를 가진 컴팩트한 모델로, CPU나 단일 소비자용 GPU, 심지어 맥북에서도 실행 가능하다. 이 모델은 오픈소스 커뮤니티 공유 데이터셋만으로 훈련됐음에도 불구하고 훨씬 큰 VLA 모델들을 능가하는 성능을 보였다.

비전-언어-액션 모델은 시각 정보와 자연어 지시를 받아 로봇 동작을 출력하는 AI 시스템이다. 기존 VLA 모델들은 대부분 대규모 비공개 데이터로 훈련된 독점 모델이었으나, 스몰VLA는 공개 데이터만 사용해 누구나 접근할 수 있도록 했다. 스몰VLA의 핵심 기술은 비동기 추론(asynchronous inference)이다. 이 기술은 로봇이 현재 동작을 수행하는 동안 동시에 다음 동작을 계산할 수 있게 해, 30% 더 빠른 응답과 2배의 작업 처리량을 제공한다.

모델은 3만 건 미만의 훈련 에피소드로 훈련됐는데, 이는 다른 VLA 모델 대비 10분의 1 수준이다. 그럼에도 시뮬레이션 환경인 리베로(LIBERO)와 메타월드(Meta-World), 실제 환경 작업인 SO100과 SO101에서 우수한 성능을 기록했다. 효율성을 위해 스몰VLA는 비전 모델의 절반 레이어를 건너뛰고, 시각 토큰 수를 64개로 제한하며, 교차 및 자기 주의 블록을 교대로 배치하는 설계를 채택했다.

허깅페이스는 로봇공학 분야는 언어나 비전 AI와 달리 대규모 공개 데이터셋이 부족해 발전이 더뎠다고 지적했다. 스몰VLA는 허깅페이스 허브의 레로봇(lerobot) 태그 하에 공유된 커뮤니티 데이터셋을 활용해 이 문제를 해결하려 했다. 연구진은 스몰VLA가 단순한 모델이 아닌 확장 가능하고 협력적인 로봇공학을 향한 오픈소스 운동의 일부라며, 연구자와 교육자, 취미 활동가들의 진입 장벽을 낮췄다고 강조했다.

해당 모델에 대한 자세한 사항은 링크에서 확인 가능하다.

이미지 출처 : 허깅페이스

허깅페이스, 맥북에서도 실행 가능한 경량 로봇 AI 모델 ‘스몰VLA’ 출시

클릭 한 번으로 작곡가 됐다…제미나이 ‘Lyria3’ 사용기

충전기 만들던 앤커가 AI 녹음기를 내놨다…”배터리 회사는 옛말”

챗GPT 지우고 클로드로 갈아탄다…데이터 이전부터 계정 삭제까지 한 번에

말로 코딩하는 시대 열렸다…앤트로픽 ‘클로드 코드’에 음성 모드 탑재

“진정하세요” 이제 그만…오픈AI, 챗GPT의 ‘오글거리는’ 말투 고친다

Highlight

구글, 이미지 생성 모델 ‘나노 바나나 2’ 공개…4K 해상도에 속도까지 잡았다

제미나이, 안드로이드에서 택시 호출·음식 배달 주문까지 자동화한다… 한국서도 적용

갤럭시 S26 AI 기능, 갤럭시에서 아이폰의 향기가 난다

“AI 개발은 기타 배우기와 같다”…오픈클로 개발자가 전하는 AI 빌더 생존법

잭 도시, 직원 절반 잘랐다…”당신 회사도 곧 같은 길 걷게 될…