Search

엔비디아, 5,000억 개 파라미터 개방형 모델 ‘네모트론 3 울트라’ 공개…에이전트 추론 5배 상승·운영 비용 30% 절감

엔비디아, 5,000억 개 파라미터 개방형 모델 '네모트론 3 울트라' 공개…에이전트 추론 5배·운영 비용 30% 절감
엔비디아, 5,000억 개 파라미터 개방형 모델 '네모트론 3 울트라' 공개…에이전트 추론 5배·운영 비용 30% 절감

엔비디아(NVIDIA)가 6월 1일 컴퓨텍스 2026 GTC 타이베이 무대에서 회사 역사상 가장 큰 개방형 언어 모델 ‘네모트론 3 울트라(Nemotron 3 Ultra)’를 공개했다. 총 5,000억~5,500억 개 파라미터(500~550B) 규모에 전문가 혼합(MoE) 구조를 결합해 복잡한 추론과 에이전트 워크플로용으로 설계됐다.

엔비디아 발표에 따르면 네모트론 3 울트라는 신규 FP4 정밀도 학습 기법(NVFP4)과 잠재형 MoE를 결합한다. 각 작업마다 모델 내부에서 관련된 전문가만 활성화하는 방식이라 추론 효율이 크게 높아진다. 회사는 같은 작업 기준으로 5배 빠른 추론 속도와 30% 낮은 운영 비용을 달성했다고 설명했다.

네모트론 3 패밀리는 나노(Nano)·슈퍼(Super)·울트라(Ultra) 세 종으로 구성된다. 모든 모델 가중치는 허깅페이스(Hugging Face)에 그대로 공개돼 누구나 다운로드해 자체 인프라에서 학습·서빙할 수 있다. 그간 폐쇄형 모델 중심으로 흘러간 미국 빅테크 진영의 결을 끊고, 엔비디아가 오픈 가중치 진영의 새 축으로 자리매김하는 그림이다.

허깅페이스 블로그에 따르면 네모트론 3 울트라는 4일(현지시각) 공식 채널을 통해 일반에 풀린다. 가격은 폐쇄형 동급 모델 대비 큰 폭 낮게 책정될 가능성이 높다. 같은 날 발표된 네모트론 3 나노 옴니(Nemotron 3 Nano Omni)는 비전·음성·언어를 한 모델에 묶어 에이전트 워크플로의 처리량을 동급 오픈 모델 대비 최대 9배까지 끌어올린다.

엔비디아의 의도는 명확하다. 자사의 RTX 스파크(RTX Spark) 슈퍼칩, DGX 스파크, DGX 스테이션, 데이터센터·클라우드 환경까지 동일한 모델 패밀리로 묶어 ‘엔드 투 엔드’ 에이전트 스택을 완성한다는 것이다. 모델은 NVIDIA NIM 마이크로서비스 형태로 빌드 엔비디아(build.nvidia.com)에서도 즉시 호출할 수 있다.

오픈AI(OpenAI)·앤트로픽(Anthropic) 같은 폐쇄형 진영이 토큰당 가격을 두고 매분기 인하 경쟁을 벌이는 흐름과는 결이 다르다. 엔비디아는 가중치를 풀어 가격 자체를 무료에 가깝게 끌어내리고, 대신 자사 칩과 추론 스택에서 모델이 가장 잘 도는 환경을 묶어 파는 전략을 택했다. 모델 다운로드 → 엔비디아 칩·소프트웨어 구매로 이어지는 선순환을 노린 셈이다.

국내 LLM 사업자에게는 이중적 의미가 있다. 가중치 공개 모델이 늘면 네이버·LG AI연구원·업스테이지·솔트룩스 같은 사업자가 자체 파운데이션 모델을 처음부터 학습할 부담이 줄고, 대신 한국어 파인튜닝과 도메인 특화 데이터 확보에 자원을 집중할 여지가 커진다. 동시에 추론 인프라 단가가 엔비디아 GPU에 더 묶일 가능성도 높아진다는 점은 양면이다.

자세한 내용은 엔비디아 뉴스룸(NVIDIA Newsroom)에서 확인할 수 있다.

이미지 출처: 이디오그램 생성