중국 AI 기업 딥시크(DeepSeek)가 API 비용을 대폭 절감할 수 있는 새로운 실험 모델을 내놨다. 테크크런치(TechCrunch)가 29일(현지 시각) 보도한 내용에 따르면, 딥시크 연구진은 긴 맥락(long-context) 작업에서 추론 비용을 극적으로 낮출 수 있는 ‘V3.2-exp’ 모델을 허깅페이스(Hugging Face)를 통해 공개했다. 이 모델의 핵심은 ‘딥시크 희소 어텐션(DeepSeek Sparse Attention)’이라는 시스템이다.
이 시스템은 ‘라이트닝 인덱서(lightning indexer)’와 ‘세밀한 토큰 선택 시스템(fine-grained token selection system)’을 결합해 맥락 창(context window)에서 중요한 부분만 선택적으로 처리한다. 이를 통해 작은 서버 부하로도 긴 맥락을 효율적으로 처리할 수 있게 됐다.
딥시크의 예비 테스트 결과 긴 맥락 상황에서 단순 API 호출 비용을 최대 절반까지 줄일 수 있는 것으로 나타났다. 모델은 오픈 웨이트(open-weight) 방식으로 무료 공개돼 제3자 검증도 곧 이뤄질 전망이다.
딥시크는 올해 초 저비용 강화학습으로 훈련한 R1 모델로 업계에 큰 반향을 일으킨 바 있다. 이번 신모델은 당시만큼 큰 주목을 받지는 못할 것으로 보이지만, 추론 비용 절감이라는 AI 업계의 핵심 과제에 실질적인 해법을 제시했다는 평가다.
해당 기사의 원문은 테크크런치에서 확인 가능하다.
이미지 출처: 딥시크