중국 AI 연구소 딥시크(DeepSeek)가 새로운 추론 AI 모델 R1의 업데이트 버전이 이번 주 AI 커뮤니티의 주목을 받고 있지만, 이와 함께 ‘축소(distilled)’ 버전인 DeepSeek-R1-0528-Qwen3-8B도 출시했다. 테크크런치가 29일(현지 시간) 보도한 내용에 따르면, 딥시크는 이 소형 모델이 특정 벤치마크에서 비슷한 크기의 다른 모델들을 능가한다고 주장했다.
알리바바(Alibaba)가 5월에 출시한 Qwen3-8B 모델을 기반으로 구축된 이 소형 R1 업데이트 버전은 까다로운 수학 문제 모음인 AIME 2025에서 구글(Google)의 제미나이(Gemini) 2.5 플래시보다 더 우수한 성능을 보였다. DeepSeek-R1-0528-Qwen3-8B는 또한 다른 수학 능력 테스트인 HMMT에서 최근 마이크로소프트(Microsoft)가 출시한 Phi 4 추론 플러스 모델과 거의 동등한 성능을 보여주고 있다.
DeepSeek-R1-0528-Qwen3-8B와 같은 축소 모델은 일반적으로 원본 모델보다 성능이 낮지만, 계산 요구량이 훨씬 적다는 장점이 있다. 클라우드 플랫폼 NodeShift에 따르면, Qwen3-8B는 40GB-80GB RAM을 갖춘 GPU(예: 엔비디아 H100)에서 실행이 가능하다. 반면 전체 크기의 새로운 R1은 약 12개의 80GB GPU가 필요하다.
딥시크는 업데이트된 R1이 생성한 텍스트를 가져와 Qwen3-8B를 미세 조정하는 방식으로 DeepSeek-R1-0528-Qwen3-8B를 훈련시켰다. AI 개발 플랫폼 허깅페이스(Hugging Face)의 전용 웹페이지에서 딥시크는 DeepSeek-R1-0528-Qwen3-8B를 “추론 모델에 관한 학술 연구와 소규모 모델에 중점을 둔 산업 개발 모두를 위한 것”이라고 설명했다.
DeepSeek-R1-0528-Qwen3-8B는 제한 없이 상업적 이용이 가능한 MIT 라이선스로 제공된다. LM Studio를 포함한 여러 호스트가 이미 API를 통해 이 모델을 제공하고 있다.
해당 기사의 원문은 링크에서 확인 가능하다.