Search

메타, 라마 3.2 공개

Llama
이미지 출처: Llama

메타(Meta)가 라마 3.2(Llama 3.2)를 공개했다. 이번 버전은 소형 및 중형 비전 LLM(11B 및 90B)과 엣지 및 모바일 기기에 적합한 경량 텍스트 전용 모델(1B 및 3B)을 포함한다.

라마 3.2의 1B 및 3B 모델은 128K 토큰의 문맥 길이를 지원하며, 요약, 지시 따르기, 재작성 등의 온디바이스 사용 사례에서 동급 최고 수준의 성능을 보인다. 이 모델들은 퀄컴(Qualcomm)과 미디어텍(MediaTek) 하드웨어에서 즉시 사용 가능하며 ARM 프로세서에 최적화되었다.

11B 및 90B 비전 모델은 기존 텍스트 모델의 대체품으로 사용할 수 있으며, 클로드 3 하이쿠(Claude 3 Haiku)와 같은 폐쇄형 모델에 비해 이미지 이해 작업에서 우수한 성능을 보인다. 이 모델들은 토치튠(torchtune)을 사용해 맞춤형 애플리케이션으로 미세 조정할 수 있으며, 토치챗(torchchat)을 통해 로컬에 배포할 수 있다.

메타는 라마 스택(Llama Stack) 배포판을 공개해 개발자들이 다양한 환경에서 라마 모델을 더 쉽게 사용할 수 있게 했다. 이는 단일 노드, 온프레미스, 클라우드, 온디바이스 등 다양한 환경을 지원하며, 검색 증강 생성(RAG) 및 도구 지원 애플리케이션의 즉시 배포를 가능하게 한다.

AWS, 데이터브릭스(Databricks), 델 테크놀로지스(Dell Technologies), 파이어웍스(Fireworks), 인포시스(Infosys), 투게더 AI(Together AI) 등과 협력해 기업 고객을 위한 라마 스택 배포판을 구축했다. 온디바이스 배포는 파이토치 이그제큐토치(PyTorch ExecuTorch)를 통해, 단일 노드 배포는 올라마(Ollama)를 통해 이루어진다.

메타는 개방성이 혁신을 촉진하고 개발자, 메타, 그리고 세계에 도움이 된다고 믿는다. 라마는 이미 개방성, 수정 가능성, 비용 효율성 면에서 선두를 달리고 있으며, 더 많은 사람들이 생성형 AI를 사용해 창의적이고 유용하며 삶을 변화시키는 혁신을 이룰 수 있게 하고 있다.

라마 3.2 모델은 llama.com과 허깅 페이스(Hugging Face)에서 다운로드할 수 있으며, AMD, AWS, 데이터브릭스, 델, 구글 클라우드(Google Cloud), 그록(Groq), IBM, 인텔(Intel), 마이크로소프트 애저(Microsoft Azure), 엔비디아(NVIDIA), 오라클 클라우드(Oracle Cloud), 스노우플레이크(Snowflake) 등 다양한 파트너 플랫폼에서 즉시 개발이 가능하다.

비전 모델의 특징

11B 및 90B 모델은 이미지 추론 사용 사례를 지원한다. 이는 차트와 그래프를 포함한 문서 수준의 이해, 이미지 캡션 생성, 자연어 설명을 기반으로 이미지 내 객체를 방향적으로 지목하는 시각적 접지 작업 등을 포함한다.

예를 들어, 사용자가 작년 중 자신의 소규모 사업이 가장 좋은 매출을 기록한 달이 언제인지 물어보면, 라마 3.2는 제공된 그래프를 기반으로 추론하여 신속하게 답변할 수 있다. 또한 지도를 보고 하이킹 코스가 언제 더 가파르게 변하는지, 지도에 표시된 특정 트레일의 거리가 얼마나 되는지 등의 질문에 답할 수 있다.

11B 및 90B 모델은 또한 이미지에서 세부 정보를 추출하고, 장면을 이해한 후 이미지 캡션으로 사용될 수 있는 문장을 작성하여 비전과 언어 사이의 간극을 메울 수 있다.

1B 및 3B 경량 모델은 다국어 텍스트 생성과 도구 호출 능력이 뛰어나다. 이 모델들은 개발자들이 데이터가 기기를 떠나지 않는 강력한 프라이버시를 갖춘 개인화된 온디바이스 에이전트 애플리케이션을 구축할 수 있게 한다.

예를 들어, 이러한 애플리케이션은 최근 받은 10개의 메시지를 요약하고, 행동 항목을 추출하며, 도구 호출을 활용하여 후속 회의를 위한 캘린더 초대를 직접 보낼 수 있다.

로컬에서 이러한 모델을 실행하면 두 가지 주요 장점이 있다. 첫째, 처리가 로컬에서 이루어지므로 프롬프트와 응답이 즉각적으로 느껴질 수 있다. 둘째, 메시지와 캘린더 정보 같은 데이터를 클라우드로 보내지 않아 전반적인 애플리케이션의 프라이버시가 향상된다.

라마 3.2 비전 모델은 이미지 인식 및 다양한 시각적 이해 작업에서 클로드 3 하이쿠(Claude 3 Haiku)와 GPT4o-mini와 같은 선도적인 기반 모델들과 경쟁력이 있는 것으로 평가되었다.

3B 모델은 지시 따르기, 요약, 프롬프트 재작성, 도구 사용 등의 작업에서 젬마 2 2.6B(Gemma 2 2.6B)와 파이 3.5-미니(Phi 3.5-mini) 모델을 능가하는 성능을 보였으며, 1B 모델은 젬마와 경쟁력 있는 성능을 보였다.

평가는 광범위한 언어를 포괄하는 150개 이상의 벤치마크 데이터셋에서 수행되었다. 비전 LLM의 경우, 이미지 이해 및 시각적 추론을 위한 벤치마크에서 성능이 평가되었다.

안전성 강화

메타는 라마 3.2의 새로운 이미지 이해 기능을 지원하도록 설계된 라마 가드 3 11B 비전(Llama Guard 3 11B Vision)을 출시했다. 이는 텍스트+이미지 입력 프롬프트나 이러한 프롬프트에 대한 텍스트 출력 응답을 필터링할 수 있다.

또한, 1B 및 3B 라마 모델이 온디바이스와 같은 더 제한된 환경에서 사용될 수 있도록 라마 가드를 최적화했다. 라마 가드 3 1B는 라마 3.2 1B 모델을 기반으로 하며, 크기를 2,858MB에서 438MB로 대폭 줄여 배포 효율성을 높였다.

이러한 새로운 솔루션들은 메타의 레퍼런스 구현, 데모, 애플리케이션에 통합되어 있으며, 오픈소스 커뮤니티가 첫날부터 사용할 수 있도록 준비되어 있다.

라마 3.2는 이전보다 더 많은 사람들에게 도달하고 흥미로운 새로운 사용 사례를 가능하게 할 것으로 기대된다. 메타는 이러한 모델을 오픈소스 커뮤니티와 공유하는 것만으로는 충분하지 않다고 믿으며, 개발자들이 라마를 책임감 있게 구축하는 데 필요한 도구도 제공하고 있다.

라마 3.2의 대한 자세한 정보는 메타 블로그에서 확인이 가능하다.




메타, 라마 3.2 공개 – AI 매터스 l AI Matters