• Home
  • News
  • 허깅페이스, 맥북에서도 실행 가능한 경량 로봇 AI 모델 ‘스몰VLA’ 출시

허깅페이스, 맥북에서도 실행 가능한 경량 로봇 AI 모델 ‘스몰VLA’ 출시

허깅페이스, 경량 로봇 AI 모델 '스몰VLA' 출시... 맥북에서도 훈련 가능
이미지 출처 : 허깅페이스

허깅페이스(Hugging Face)가 로봇공학을 위한 경량 오픈소스 비전-언어-액션(Vision-Language-Action) 모델 ‘스몰VLA(SmolVLA)’를 3일(현지 시간) 공개했다. 허깅페이스 블로그에 공개된 내용에 따르면, 스몰VLA-450M은 4억 5천만 개의 매개변수를 가진 컴팩트한 모델로, CPU나 단일 소비자용 GPU, 심지어 맥북에서도 실행 가능하다. 이 모델은 오픈소스 커뮤니티 공유 데이터셋만으로 훈련됐음에도 불구하고 훨씬 큰 VLA 모델들을 능가하는 성능을 보였다.

비전-언어-액션 모델은 시각 정보와 자연어 지시를 받아 로봇 동작을 출력하는 AI 시스템이다. 기존 VLA 모델들은 대부분 대규모 비공개 데이터로 훈련된 독점 모델이었으나, 스몰VLA는 공개 데이터만 사용해 누구나 접근할 수 있도록 했다. 스몰VLA의 핵심 기술은 비동기 추론(asynchronous inference)이다. 이 기술은 로봇이 현재 동작을 수행하는 동안 동시에 다음 동작을 계산할 수 있게 해, 30% 더 빠른 응답과 2배의 작업 처리량을 제공한다.

모델은 3만 건 미만의 훈련 에피소드로 훈련됐는데, 이는 다른 VLA 모델 대비 10분의 1 수준이다. 그럼에도 시뮬레이션 환경인 리베로(LIBERO)와 메타월드(Meta-World), 실제 환경 작업인 SO100과 SO101에서 우수한 성능을 기록했다. 효율성을 위해 스몰VLA는 비전 모델의 절반 레이어를 건너뛰고, 시각 토큰 수를 64개로 제한하며, 교차 및 자기 주의 블록을 교대로 배치하는 설계를 채택했다.

허깅페이스는 로봇공학 분야는 언어나 비전 AI와 달리 대규모 공개 데이터셋이 부족해 발전이 더뎠다고 지적했다. 스몰VLA는 허깅페이스 허브의 레로봇(lerobot) 태그 하에 공유된 커뮤니티 데이터셋을 활용해 이 문제를 해결하려 했다. 연구진은 스몰VLA가 단순한 모델이 아닌 확장 가능하고 협력적인 로봇공학을 향한 오픈소스 운동의 일부라며, 연구자와 교육자, 취미 활동가들의 진입 장벽을 낮췄다고 강조했다.

해당 모델에 대한 자세한 사항은 링크에서 확인 가능하다.

이미지 출처 : 허깅페이스






허깅페이스, 맥북에서도 실행 가능한 경량 로봇 AI 모델 ‘스몰VLA’ 출시 – AI 매터스 l AI Matters