AI 자연어처리(NLP) 전문기업 퀀텀에이아이(QuantumAI)가 대규모 언어모델(LLM)의 핵심 병목인 메모리 처리를 겨냥한 차세대 초압축 기술 ‘퀀텀퀀트(QuantumQuant)’를 23일 공개했다. 퀀텀에이아이에 따르면 이 기술은 최근 구글 리서치(Google Research) 등이 제안한 ‘터보퀀트(TurboQuant)’의 한계를 수학적 구조 측면에서 극복한 차세대 AI 양자화 알고리즘이다.
터보퀀트는 극좌표 변환 기반 무작위 회전으로 KV 캐시(Key-Value Cache)를 압축하는 방식이다. 그러나 초고차원 벡터에서는 랜덤 회전에 필요한 계산량이 기하급수적으로 증가해 대형 모델 추론에 적용하기 어렵다는 한계가 있었다. 퀀텀퀀트는 이 지점에서 출발해, 합성(composition)을 통한 simplex 공간 내 양자화 방식을 도입해 랜덤 회전 없이 초고차원 컨텍스트 벡터를 실시간 압축할 수 있도록 설계됐다.
퀀텀에이아이에 따르면 이 방식으로 저장 용량은 터보퀀트 대비 수분의 일 수준으로 줄어드는 동시에 정보 복원력은 오히려 향상됐다. 단순 수치 오차(MSE)에 그치지 않고, 정보 엔트로피의 흐름까지 고려한 정밀 보정 기법을 적용해 압축·복원 과정에서 발생하는 정보 왜곡을 최소화했다는 설명이다. 회사 측은 금융권 약관 분석이나 고도 상담 에이전트처럼 미세한 정보 차이가 품질을 좌우하는 영역에서 특히 효과가 크다고 강조했다.
업계는 이번 발표가 고가의 고대역폭 메모리(HBM)에 대한 의존도를 낮추면서도 추론 속도를 수 배 끌어올릴 수 있다는 점에서 B2B AI 인프라 시장의 판도를 바꿀 수 있다고 평가한다. 대규모 문맥 처리와 에이전트 워크로드가 확대될수록 KV 캐시 압축 효율이 곧 서비스 원가에 직결되기 때문이다.
퀀텀에이아이는 수학적 접근에 그쳤던 기존 연구와 달리 퀀텀퀀트가 통계·계산 관점에서 설계됐다는 점을 강점으로 내세웠다. 향후 텍스트뿐 아니라 음성·이미지 등 멀티모달 데이터 전반을 아우르는 핵심 연산 표준으로 자리매김하겠다는 목표다.
2020년 설립된 퀀텀에이아이는 자체 개발한 ‘Data2Vec 통합자연어처리 엔진’과 AI OCR, 문서 처리 솔루션을 기반으로 금융·의료·법률 등 고신뢰 산업군에서 AI 데이터 자산화 프로젝트를 수행해 왔다. 국내 주요 시중은행과 보험사를 대상으로 비정형 데이터의 정형화·분석 서비스를 공급해 왔고, 최근에는 AI 에이전트 기반 서비스로 영역을 확장 중이다.
자세한 내용은 퀀텀에이아이(QuantumAI)에서 확인할 수 있다.
이미지 출처: 이디오그램 생성







