Search

딥시크, AI 모델 속도 높이는 ‘DeepGEMM’ 라이브러리 공개

AI Matters 기사 썸네일 deepseek opensource day 3
이미지 출처: 딥시크/배경편집

딥시크(DeepSeek)가 오픈소스 주간의 세 번째 발표로 인공지능 모델의 계산 속도를 크게 향상시키는 소프트웨어 도구 ‘DeepGEMM’을 공개했다. 이 도구는 복잡한 AI 모델이 데이터를 처리하는 과정을 더 빠르고 효율적으로 만들어준다.


DeepGEMM은 행렬 곱셈(GEMM)이라는 수학적 연산을 처리하는 데 특화된 도구다. 행렬 곱셈은 AI 모델이 학습하고 예측하는 과정에서 가장 많이 사용되는 핵심 연산으로, 이를 빠르게 처리할수록 AI 모델의 전체 성능이 향상된다.

최신 AI 모델에서 행렬 곱셈은 가장 계산 집약적인 작업 중 하나로, 특히 대형 언어 모델과 같은 딥러닝 시스템에서 계산 비용의 상당 부분을 차지한다. 이 연산 속도를 높이는 것은 AI 모델 전체의 성능 향상으로 직결된다.

딥시크에 따르면, DeepGEMM의 가장 큰 특징은 단순하면서도 강력한 성능이다. 핵심 코드가 단 300줄 정도로 간결하게 작성되었지만, 기존의 복잡한 도구들보다 최대 2.7배 빠른 속도를 보여준다.

이 도구는 특히 엔비디아의 최신 호퍼(Hopper) GPU에 최적화되어 있으며, ‘FP8’이라는 저정밀도 숫자 형식을 사용해 AI 모델의 계산 효율성을 높인다. 저정밀도 숫자 형식은 데이터를 더 작은 공간에 저장하고 처리할 수 있게 해 속도를 높이는 방식이다.

DeepGEMM은 일반적인 AI 모델뿐만 아니라 ‘전문가 혼합(MoE)’ 모델도 지원한다. 전문가 혼합 모델은 여러 ‘전문가’ 신경망이 각각 다른 유형의 데이터를 처리하는 방식으로, 최근 대형 AI 모델에서 널리 사용되고 있다.

전문가 혼합 모델은 더 적은 자원으로 더 큰 AI 모델을 실행할 수 있게 해주는 중요한 기술이다. DeepGEMM은 이런 복잡한 모델의 처리 속도도 최대 1.2배 향상시킨다.

DeepGEMM의 또 다른 장점은 설치와 사용이 간편하다는 점이다. 일반적인 라이브러리들이 설치 시 복잡한 컴파일 과정을 거쳐야 하는 것과 달리, DeepGEMM은 ‘실시간 컴파일(JIT)’ 방식을 사용해 사용자가 직접 실행할 때 필요한 부분만 자동으로 컴파일한다.

이 라이브러리를 사용하려면 NVIDIA의 호퍼 GPU, Python 3.8 이상, CUDA 12.3 이상의 환경이 필요하다. 개발자들은 최상의 성능을 위해 CUDA 12.8 이상을 권장하고 있다.

자세한 내용은 링크에서 확인할 수 있다.

이미지 출처: 딥시크 / 배경 편집

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




딥시크, AI 모델 속도 높이는 ‘DeepGEMM’ 라이브러리 공개 – AI 매터스 l AI Matters