Search

NIST CAISI, 딥시크 V4 Pro 평가 결과 발표 — “미국 최신 모델들과 8개월 격차”

NIST CAISI, 딥시크 V4 Pro 평가 결과 발표 — "프론티어와 8개월 격차"
NIST CAISI, 딥시크 V4 Pro 평가 결과 발표 — "프론티어와 8개월 격차"

미국 국립표준기술연구소(NIST) 산하 ‘AI 안전·평가 컨소시엄(CAISI)’이 5월 6일 중국 딥시크(DeepSeek)의 최신 모델 ‘V4 Pro’에 대한 독립 평가 결과를 공개했다. 결론은 “성능은 인상적이지만 미국 프론티어 모델과 약 8개월 격차가 있다”였다.

딥시크 V4 Pro는 1.6조(1.6T) 파라미터 모델로 추론 시 49B 파라미터만 활성화되는 MoE(혼합 전문가) 구조를 채택했다. 1M 토큰 컨텍스트를 지원하며, 4월 24일 프리뷰가 공개된 후 한 달여 만에 정식 평가 단계에 진입했다. 동시에 출시된 ‘V4 Flash’는 284B(13B 활성) 모델로 추론 비용 효율성에 초점을 맞췄다.

벤치마크상 V4 Pro는 SWE-bench Verified 80.6%, Codeforces 3,206점, LiveCodeBench 93.5점을 기록했다. 수학·STEM·코딩 영역에서 현재 공개된 모든 오픈웨이트 모델을 앞섰고, 일반 지식 분야에서는 구글의 제미나이 3.1 프로(Gemini 3.1 Pro)에만 뒤졌다.

그러나 CAISI의 평가는 단순 점수 비교를 넘어선다. CAISI는 “V4 Pro의 전반적 능력은 약 8개월 전 출시된 GPT-5와 유사 수준”이라고 진단했다. 미국이 1년 전 가졌던 능력을 중국이 따라잡는 데 8개월이 걸린 셈이다. 안전성·보안·편향성 평가에서는 일부 영역에서 우려 요소가 발견됐다고 언급했지만 구체 항목은 비공개로 처리됐다.

비용 효율성은 V4 Pro의 또 다른 무기다. 1M 토큰 컨텍스트에서 단일 토큰 추론 FLOPs는 V3.2의 27% 수준, KV 캐시는 10% 수준에 불과하다. 동급 성능을 훨씬 적은 자원으로 구현했다는 의미다. 100만 토큰 기준 단가는 $0.30 수준으로, 서구 프론티어 모델 대비 큰 가격 우위를 갖는다.

이번 평가는 미·중 AI 격차 논쟁에 새 데이터 포인트를 제공한다. “중국이 1년 안에 따라잡는다”는 일각의 주장과 “수년 격차”라는 반론이 평행선을 달리던 가운데, NIST가 사실상 ‘8개월 시차’라는 객관적 수치를 내놓은 셈이다. 한국 입장에서는 자국 LLM의 위치 설정에도 참조할 만한 지표라는 평가가 나온다.

자세한 내용은 NIST에서 확인할 수 있다.

이미지 출처: 이디오그램 생성

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너