딥시크(DeepSeek)가 24일(현지 시간) 오픈소스 주간 첫날을 맞아 호퍼 GPU에 최적화된 효율적인 MLA 디코딩 커널 ‘FlashMLA’를 공개했다. 이 기술은 변수 길이 시퀀스를 처리하기 위해 최적화되었으며 현재 프로덕션 환경에서 사용 중이다. FlashMLA는 H800 GPU에서 3000GB/s의 메모리 바운드 성능과 580 TFLOPS의 컴퓨팅 바운드 성능을 자랑한다. 이 커널은 BF16 지원과 함께 64 블록 크기의 페이지드 KV 캐시(Paged KV cache)를 제공한다.
FlashMLA는 특히 NVIDIA의 호퍼 GPU(예: H800)에 맞춰 설계되었다. 이 GPU는 고급 텐서 코어와 트랜스포머 엔진으로 유명한 최첨단 데이터센터 GPU다. 이 커널은 FlashAttention 2와 3, 그리고 CUTLASS 프로젝트의 기법을 통합하여 성능을 향상시키고, 자원 사용을 최적화하며, 처리 시간을 단축시킨다. 변수 길이 시퀀스를 정밀하고 빠르게 디코딩하는 데 중점을 두고 있다.
개발자들은 이 최적화가 딥시크의 성능을 크게 향상시킬 것으로 기대하고 있다. 디코딩 효율성을 높임으로써 특히 사용량이 많은 시간대에 발생하는 “서버 사용 중” 문제를 해결하는 데 도움이 될 것으로 보인다. 딥시크는 GitHub을 통해 FlashMLA를 오픈소스로 공개했다. 이번 발표는 GPU 효율성 향상과 AI 모델 실행 시 자원 사용 최적화에 중점을 둔 오픈소스 커뮤니티의 노력을 보여주는 중요한 사례다. 특히 BF16 지원을 통해 정확도 손실 없이 처리 속도를 높이고, 페이지드 KV 캐시를 통해 메모리를 스마트하게 사용하는 점이 주목할 만하다.
해당 기술에 대한 자세한 내용은 링크에서 확인할 수 있다.
이미지 출처: 딥시크
기사는 클로드와 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기