• Home
  • News
  • 메타, 모바일 기기용 초경량 라마(Llama) 모델 공개… 메모리 56% 감소·속도 4배 향상

메타, 모바일 기기용 초경량 라마(Llama) 모델 공개… 메모리 56% 감소·속도 4배 향상

Llama
이미지 출처: META

메타(Meta)가 모바일 기기에서도 구동 가능한 경량화된 라마(Llama) 3.2 모델을 24일 공개했다. 양자화(Quantization) 기술을 적용해 기존 대비 메모리 사용량을 대폭 줄이고 처리 속도를 높인 것이 특징이다.

메타가 공개한 양자화 라마 모델은 1B와 3B 두 가지 버전이다. 원래 BF16 포맷 대비 모델 크기는 평균 56% 감소했으며, 메모리 사용량은 41% 줄었다. 특히 처리 속도는 최대 4배까지 향상됐다. 이는 안드로이드 원플러스12(OnePlus 12) 기기에서 테스트한 결과다.

메타는 이번 모델에 두 가지 양자화 기술을 적용했다. 첫 번째는 ‘큐로라(QLoRA)’로 불리는 양자화 인식 훈련(Quantization-Aware Training)과 로라(LoRA) 어댑터를 결합한 방식이다. 두 번째는 ‘스핀퀀트(SpinQuant)’라는 최신 훈련 후 양자화 방식이다.

메타 AI 연구팀은 “큐로라 방식이 정확도 면에서 가장 우수한 성능을 보여줬다”며 “스핀퀀트는 훈련 데이터셋 없이도 적용할 수 있어 이식성이 뛰어나다는 장점이 있다”고 설명했다.

새로운 양자화 모델은 퀄컴(Qualcomm)과 미디어텍(MediaTek)의 SoC에 탑재된 ARM CPU에서 구동된다. 메타는 현재 NPU(신경망처리장치)를 활용해 성능을 더욱 개선하기 위해 파트너사들과 협력 중이라고 밝혔다.

메타는 “이번 경량화 모델을 통해 더 많은 개발자들이 제한된 컴퓨팅 자원으로도 라마를 활용할 수 있게 됐다”며 “모바일 기기에서 완전한 온디바이스 방식으로 구동되어 프라이버시도 보장된다”고 강조했다.

새로운 라마 3.2 양자화 모델은 라마닷컴(llama.com)과 허깅페이스(Hugging Face)를 통해 다운로드할 수 있다.

라마 3.2양자화 모델에 대한 정보는 링크에서 확인할 수 있다.




메타, 모바일 기기용 초경량 라마(Llama) 모델 공개… 메모리 56% 감소·속도 4배 향상 – AI 매터스