• Home
  • News
  • 마이크로소프트, SLM 시리즈 ‘파이-4’ 신규 모델 출시… 단어 인식 정확도 향상

마이크로소프트, SLM 시리즈 ‘파이-4’ 신규 모델 출시… 단어 인식 정확도 향상

마이크로소프트, 파이-4 시리즈 신규 모델 출시로 AI 혁신 가속화
이미지출처: 마이크로소프트

마이크로소프트가 소형 언어 모델(SLM) 시리즈인 파이(Phi) 제품군의 최신 모델 ‘파이-4-멀티모달(Phi-4-multimodal)’과 ‘파이-4-미니(Phi-4-mini)’를 출시했다. 26일(현지 시간) 마이크로소프트 블로그에 게시된 내용에 따르면, 두 모델은 애저 AI 파운드리(Azure AI Foundry), 허깅페이스(HuggingFace), 엔비디아 API 카탈로그(NVIDIA API Catalog)에서 즉시 사용 가능하다.

파이-4-멀티모달은 마이크로소프트의 첫 다중모달 언어 모델로, 5.6B 파라미터를 탑재했다. 이 모델은 음성, 시각, 텍스트 처리를 단일 아키텍처로 통합해 복잡한 파이프라인이나 별도 모델 없이 여러 입력 형식을 동시에 처리할 수 있다.

벤치마크 테스트에서 파이-4-멀티모달은 자동 음성 인식(ASR) 분야에서 6.14%의 단어 오류율로 허깅페이스 OpenASR 리더보드 1위를 차지했다. 또한 문서 이해, 차트 해석, 광학 문자 인식(OCR) 등의 시각 작업에서도 경쟁 모델과 비슷하거나 더 뛰어난 성능을 보였다.

파이-4-미니는 3.8B 파라미터의 컴팩트한 모델로, 추론, 수학, 코딩, 지시 따르기, 함수 호출 등 텍스트 기반 작업에 특화됐다. 최대 128,000 토큰의 시퀀스를 지원하며, 작은 크기에도 불구하고 더 큰 모델들과 경쟁할 수 있는 성능을 제공한다.

마이크로소프트는 새 모델들의 응용 사례로 다음을 제시했다. 마이크로소프트는 파이-4 시리즈의 다양한 실제 응용 사례를 제시했다. 스마트폰에 직접 내장하면 음성 명령 처리, 이미지 인식, 실시간 언어 번역과 같은 고급 기능을 지연 없이 제공할 수 있다. 자동차 산업에서는 차량 내 어시스턴트 시스템에 통합해 음성 명령을 처리하고 운전자 제스처를 인식하며 안면 인식을 통한 졸음 감지로 안전 기능을 강화할 수 있다. 금융 분야에서는 복잡한 금융 계산을 자동화하고 상세 보고서를 생성하며 금융 문서를 여러 언어로 번역하는 데 활용할 수 있다고 설명했다.

두 모델은 마이크로소프트 AI 레드 팀(AIRT)의 엄격한 보안 및 안전성 테스트를 거쳤다. 오픈소스 파이썬 리스크 식별 툴킷(PyRIT)을 포함한 다양한 방법으로 사이버 보안, 국가 안보, 공정성 등 여러 영역에서 검증되었다.

해당 모델에 대한 자세한 내용은 링크에서 확인할 수 있다.

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




마이크로소프트, SLM 시리즈 ‘파이-4’ 신규 모델 출시… 단어 인식 정확도 향상 – AI 매터스