인셉션, 세계 최초 상업용 디퓨전 LLM ‘머큐리’ 공개… “기존 LLM보다 10배 빠르다”

인셉션 랩스(Inception Labs)가 지난달 27일(현지 시간) 자사 웹사이트를 통해 세계 최초의 상업용 디퓨전 대규모 언어 모델(dLLM) ‘머큐리(Mercury)’를 공개했다. 이 새로운 모델은 기존 LLM보다 최대 10배 빠르고 비용 효율적이며, NVIDIA H100에서 초당 1000개 이상의 토큰을 처리할 수 있다.

We are excited to introduce Mercury, the first commercial-grade diffusion large language model (dLLM)! dLLMs push the frontier of intelligence and speed with parallel, coarse-to-fine text generation. pic.twitter.com/HfjDdoSvIC
— Inception Labs (@InceptionAILabs) February 26, 2025

현재 대부분의 LLM은 자기회귀(autoregressive) 방식으로 텍스트를 한 번에 하나의 토큰씩 생성한다. 반면 디퓨전 모델은 ‘거친 것에서 세밀한 것으로’ 진행되는 생성 프로세스를 사용해 출력물이 몇 단계의 ‘노이즈 제거’를 통해 정제된다. 이 방식은 추론과 응답 구조화에 더 뛰어나며 실수와 환각을 수정할 수 있다.

첫 번째 공개 모델인 ‘머큐리 코더(Mercury Coder)’는 코드 생성에 최적화되었다. 표준 코딩 벤치마크에서 GPT-4o Mini와 Claude 3.5 Haiku와 같은 속도 최적화 모델보다 뛰어난 성능을 보이면서도 최대 10배 빠르다. Copilot Arena 벤치마크에서는 GPT-4o Mini보다 4배 빠르면서 GPT-4o Mini, Gemini-1.5-Flash, 심지어 GPT-4o보다 우수한 성능을 보였다.

dLLM은 기존 LLM의 모든 사용 사례(RAG, 도구 사용, 에이전트 워크플로우 등)를 지원하는 대체재로 사용할 수 있다. 인셉션 랩스는 API와 온프레미스 배포를 통해 모델 접근을 제공하며, 기존 하드웨어, 데이터셋, 학습 파이프라인과 완벽하게 호환된다.

머큐리 코더는 dLLM 시리즈의 첫 모델이며, 채팅 애플리케이션용 모델도 비공개 베타 중이다. 디퓨전 언어 모델은 향상된 에이전트, 고급 추론, 제어 가능한 생성, 엣지 애플리케이션 등 LLM에 새로운 기능을 제공할 것으로 기대된다. 현재 람다 랩스(Lambda Labs)와 협력하여 호스팅되는 플레이그라운드에서 머큐리 코더를 테스트해 볼 수 있다.

해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다.