• Home
  • News
  • 마이크로소프트, 강력한 소형 언어 모델 ‘파이-3’ 공개

마이크로소프트, 강력한 소형 언어 모델 ‘파이-3’ 공개

Image
이미지출처: 마이크로소프트 홈페이지

마이크로소프트가 작지만 강력한 소형 언어 모델(SLM) 파이-3(Phi-3) 시리즈를 공개했다. 이 모델은 기존 대형 언어 모델(LLM)의 많은 기능을 제공하면서도 크기가 작고 적은 양의 데이터로 학습된 것이 특징이다.

마이크로소프트 연구진은 어린이 책에서 영감을 얻어 새로운 학습 방식을 개발했다. 연구원 로넨 엘단(Ronen Eldan)은 딸에게 책을 읽어주며 아이의 언어 학습 과정에 주목했고, 이를 바탕으로 4살 아이가 이해할 수 있는 단어만을 사용해 AI 모델을 학습시키는 방법을 고안했다.

파이-3 모델은 같은 크기의 모델은 물론 한 단계 큰 모델보다도 우수한 성능을 보인다. 언어, 코딩, 수학 능력을 평가하는 다양한 벤치마크에서 뛰어난 결과를 보여줬다. 첫 번째로 공개된 모델은 파이-3-미니(Phi-3-mini)로, 38억 개의 매개변수를 가지고 있으며 두 배 크기의 모델보다 우수한 성능을 보인다. 이 모델은 마이크로소프트 애저 AI 모델 카탈로그(Microsoft Azure AI Model Catalog)와 허깅 페이스(Hugging Face), 올라마(Ollama) 등에서 사용할 수 있다.

소형 언어 모델은 간단한 작업에 적합하며, 자원이 제한된 조직에서도 쉽게 사용할 수 있다. 또한 특정 요구에 맞춰 미세 조정하기 쉽다는 장점이 있다. 마이크로소프트의 AI 부문 부사장 루이스 바르가스(Luis Vargas)는 “일부 고객은 소형 모델만 필요로 하고, 일부는 대형 모델이 필요하며, 많은 고객들이 다양한 방식으로 둘을 결합하길 원할 것”이라고 말했다.

파이-3 모델의 성공 비결은 고품질 데이터를 선별적으로 사용한 학습 방식에 있다. 연구진은 ‘타이니스토리즈(TinyStories)’라는 데이터셋을 만들어 초기 모델을 학습시켰고, 이후 ‘코드텍스트북(CodeTextbook)’이라는 더 정교한 데이터셋을 개발해 파이-3 모델을 훈련했다. 마이크로소프트 생성형 AI 연구 부문 부사장 세바스티안 부벡(Sebastien Bubeck)은 “양질의 문서에서 읽고 이해하는 작업을 언어 모델에게 훨씬 쉽게 만들어준다”고 설명했다.

소형 언어 모델은 특히 엣지 컴퓨팅 분야에서 큰 잠재력을 보인다. 클라우드 연결 없이 스마트폰이나 기타 모바일 기기에서 작동할 수 있어, 지연 시간을 최소화하고 개인정보 보호를 극대화할 수 있다. 마이크로소프트 AI 최전선 연구소를 이끄는 에체 카마르(Ece Kamar) 부사장은 “소형 언어 모델이 대형 언어 모델을 대체하지는 않을 것”이라며, “엣지 컴퓨팅, 기기 상의 컴퓨팅, 클라우드에 접속할 필요가 없는 컴퓨팅에 독보적인 위치를 차지하게 될 것”이라고 전망했다.
파이-3의 대한 자세한 내용은 마이크로소프트 홈페이지에서 확인할 수 있다.


본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




마이크로소프트, 강력한 소형 언어 모델 ‘파이-3’ 공개 – AI 매터스