트랜스포머 시대의 균열… 맘바 3, 언어 모델링 정확도 최대 4% 앞섰다

인공지능(AI) 분야를 지배해 온 트랜스포머 아키텍처에 강력한 도전장이 던져졌다. 벤처비트에 따르면, 오픈소스 시퀀스 모델링 아키텍처인 맘바 3(Mamba 3)가 공개되며 트랜스포머를 언어 모델링 성능과 추론 속도 양면에서 능가할 수 있음을 입증했다.

대다수 사람들에게 생성형 AI 시대의 시작은 2022년 말 오픈AI의 챗GPT 출시였지만, 그 근간이 되는 기술은 구글이 2017년 발표한 논문 “어텐션이 전부다(Attention Is All You Need)”로 거슬러 올라간다. 이 논문에서 제안된 트랜스포머는 문장 속 단어들의 중요도를 다르게 계산하고 정보를 병렬로 학습하는 구조로, 현재까지 대부분의 주요 생성형 AI 모델의 기반이 돼 왔다.

그러나 트랜스포머에는 구조적 한계가 있다. 시퀀스 길이가 길어질수록 연산량이 제곱으로 늘어나는 것이다. 새로운 토큰을 생성할 때마다 이전 모든 토큰과의 관계를 재계산해야 하기 때문에, 긴 문서를 처리할수록 연산 비용과 메모리 사용량이 급격히 치솟는다.

맘바 3는 바로 이 비효율을 해결하기 위해 설계된 구조화된 상태 공간 모델(SSM) 기반 아키텍처의 최신 버전이다. 카네기멜론대학교의 앨버트 구와 프린스턴대학교의 트리 다오 연구팀이 개발해온 맘바 시리즈의 세 번째 작품으로, 이번에 국제학습표상학회(ICLR 2026)에 정식 논문으로 채택되며 오픈소스로 공개됐다.

벤처비트에 따르면, 맘바 3는 세 가지 핵심 기술적 개선을 중심으로 설계됐다. 첫째는 상태 업데이트 방식의 고도화다. 기존의 단순 오일러 방식 대신 사다리꼴 적분 방식을 채택해 각 시간 구간의 시작과 끝을 모두 고려함으로써 긴 시퀀스에서 메모리를 더 안정적으로 유지할 수 있게 됐다. 둘째는 복소수 기반 상태 업데이트 도입이다. 히든 스테이트가 복소 평면 위에서 움직일 수 있게 되면서 단순 감쇠를 넘어 언어와 음악 구조에서 흔히 나타나는 반복적·주기적 패턴까지 표현할 수 있게 됐다. 셋째는 다중 입출력 구조 전환이다. 추론 단계에서 여러 스트림을 동시에 처리할 수 있어 현대 GPU 자원을 훨씬 효율적으로 활용한다.

이 같은 개선의 결과, 15억 파라미터 규모에서 맘바 3는 차순위 모델인 게이티드 델타넷 대비 평균 다운스트림 정확도를 0.6 퍼센트포인트 개선했으며, 다중 입출력 변형 모델은 추가로 1.2 퍼센트포인트를 더 끌어올려 총 1.8 퍼센트포인트의 향상을 기록했다. 언어 모델링 정확도 면에서는 트랜스포머 대비 최대 약 4% 앞선 성능을 보였다.

실시간 응답 속도 측면에서도 강점을 보인다. 맘바 3는 선형 시간 복잡도로 실행되며 시퀀스 길이가 늘어나도 지연 시간이 안정적으로 유지된다. 챗봇, 번역, 음성 인터페이스처럼 규모보다 빠른 응답이 중요한 애플리케이션에 특히 유리하다. 또한 하드웨어 친화적인 설계 덕분에 클라우드에 의존하지 않고 기기 내에서 대형 모델을 직접 구동하는 온디바이스 AI 적용 가능성도 주목받고 있다.

한편, 맘바 3는 검색·정보 추출 과제에서는 여전히 약점을 드러냈다. 반구조화 데이터나 비구조화 데이터에서 정보를 뽑아내는 작업에서는 트랜스포머 기반 모델에 뒤처지는 결과가 나왔다. 고정 크기의 상태를 유지하는 구조적 특성상 정밀한 정보 검색에는 한계가 있다는 점이 확인된 것이다.

맘바 3의 등장은 AI 업계 전반에도 파장을 일으키고 있다. 엔비디아(Nvidia)는 이미 맘바와 트랜스포머를 결합한 하이브리드 아키텍처를 자사 네모트론(Nemotron) 시리즈에 적용하고 있으며, IBM 역시 그래나이트 4(Granite 4) 모델에 동일한 하이브리드 설계를 도입해 메모리 요구량을 70% 이상 줄였다고 밝혔다. 맘바 기반 아키텍처가 학계를 넘어 산업 현장으로 빠르게 스며들고 있는 것이다.

자세한 내용은 벤처비트(VentureBeat)에서 확인할 수 있다.

이미지 출처: 이디오그램 생성