• Home
  • News
  • 인셉션, 세계 최초 상업용 디퓨전 LLM ‘머큐리’ 공개… “기존 LLM보다 10배 빠르다”

인셉션, 세계 최초 상업용 디퓨전 LLM ‘머큐리’ 공개… “기존 LLM보다 10배 빠르다”

인셉션, 세계 최초 상업용 디퓨전 LLM ‘머큐리’ 공개… “기존 LLM보다 10배 빠르다”
이미지출처: 인셉션

인셉션 랩스(Inception Labs)가 지난달 27일(현지 시간) 자사 웹사이트를 통해 세계 최초의 상업용 디퓨전 대규모 언어 모델(dLLM) ‘머큐리(Mercury)’를 공개했다. 이 새로운 모델은 기존 LLM보다 최대 10배 빠르고 비용 효율적이며, NVIDIA H100에서 초당 1000개 이상의 토큰을 처리할 수 있다.


현재 대부분의 LLM은 자기회귀(autoregressive) 방식으로 텍스트를 한 번에 하나의 토큰씩 생성한다. 반면 디퓨전 모델은 ‘거친 것에서 세밀한 것으로’ 진행되는 생성 프로세스를 사용해 출력물이 몇 단계의 ‘노이즈 제거’를 통해 정제된다. 이 방식은 추론과 응답 구조화에 더 뛰어나며 실수와 환각을 수정할 수 있다.

첫 번째 공개 모델인 ‘머큐리 코더(Mercury Coder)’는 코드 생성에 최적화되었다. 표준 코딩 벤치마크에서 GPT-4o Mini와 Claude 3.5 Haiku와 같은 속도 최적화 모델보다 뛰어난 성능을 보이면서도 최대 10배 빠르다. Copilot Arena 벤치마크에서는 GPT-4o Mini보다 4배 빠르면서 GPT-4o Mini, Gemini-1.5-Flash, 심지어 GPT-4o보다 우수한 성능을 보였다.

dLLM은 기존 LLM의 모든 사용 사례(RAG, 도구 사용, 에이전트 워크플로우 등)를 지원하는 대체재로 사용할 수 있다. 인셉션 랩스는 API와 온프레미스 배포를 통해 모델 접근을 제공하며, 기존 하드웨어, 데이터셋, 학습 파이프라인과 완벽하게 호환된다.

머큐리 코더는 dLLM 시리즈의 첫 모델이며, 채팅 애플리케이션용 모델도 비공개 베타 중이다. 디퓨전 언어 모델은 향상된 에이전트, 고급 추론, 제어 가능한 생성, 엣지 애플리케이션 등 LLM에 새로운 기능을 제공할 것으로 기대된다. 현재 람다 랩스(Lambda Labs)와 협력하여 호스팅되는 플레이그라운드에서 머큐리 코더를 테스트해 볼 수 있다.

해당 모델에 대한 자세한 사항은 링크에서 확인할 수 있다.

이미지출처: 이디오그램 생성

기사는 클로드와 챗GPT를 활용해 작성되었습니다. 




인셉션, 세계 최초 상업용 디퓨전 LLM ‘머큐리’ 공개… “기존 LLM보다 10배 빠르다” – AI 매터스