Search

투게더AI, 2비트 KV 캐시 압축 ‘OSCAR’ 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다

투게더AI, 2비트 KV 캐시 압축 'OSCAR' 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다
투게더AI, 2비트 KV 캐시 압축 'OSCAR' 오픈소스 공개…긴 문맥 AI 추론 비용 낮춘다

AI 추론 비용의 숨은 병목을 줄이는 기술이 오픈소스로 풀렸다. 투게더AI(Together AI)는 긴 문맥(long-context) 대규모 언어모델(LLM) 서빙을 위한 2비트 KV 캐시 압축 시스템 ‘OSCAR’를 공개했다고 마크테크포스트(MarkTechPost) 등이 5월 25일 전했다. 투게더AI는 LLM을 대신 돌려 주는 클라우드 추론 서비스로 알려진 기업이다.

LLM이 긴 입력을 처리할 때는 이전 토큰들의 정보를 담아 두는 KV 캐시(Key-Value cache)가 메모리를 빠르게 잡아먹는다. 문맥이 길어질수록 이 캐시 용량이 선형으로 불어나 GPU 메모리와 처리 속도를 동시에 압박하는데, 수십만~100만 토큰을 다루는 요즘 모델에서는 이 부담이 더 두드러진다. 그동안 캐시를 2비트(INT2)까지 줄이는 시도는 정확도 손실 탓에 현실성이 떨어진다는 평가를 받아 왔다.

OSCAR(Offline Spectral Covariance-Aware Rotation)의 핵심 아이디어는, 양자화에 앞서 적용하는 ‘회전’을 KV 값의 단순 분포가 아니라 어텐션(attention) 통계에서 끌어낸다는 점이다. 보정 데이터로 쿼리의 공분산을 추정한 뒤 고유값 분해를 거쳐, 그 고유벡터를 키(key) 회전의 기준축으로 삼는 방식이다. 모델이 실제로 어디에 ‘주목’하는지를 반영해 회전축을 정하기 때문에, 같은 2비트로 줄여도 중요한 정보가 덜 망가진다는 게 연구진의 설명이다.

OSCAR는 추론 서빙 스택 ‘SGLang’에 INT2 KV 캐시 모드로 통합됐고, 페이지드 어텐션(paged attention)과도 호환된다. 실제 구현에서는 앞쪽 64개 토큰과 최근 256개 토큰은 정밀도가 높은 BF16으로 두고, 나머지 과거 토큰만 회전·클리핑을 거쳐 INT2로 압축해 정확도와 효율의 균형을 맞췄다.

이런 메모리 효율 기술은 같은 GPU로 더 긴 문맥을 더 많은 사용자에게 서비스할 수 있게 해 준다. 결국 추론 단가를 낮춰 AI 서비스의 운영 비용을 줄이는 효과로 이어진다. AI 인프라 비용이 업계 최대 화두인 가운데, 모델 자체가 아니라 ‘서빙 효율’을 끌어올리는 연구가 오픈소스로 공유된다는 점이 의미가 작지 않다.

관련 논문은 arXiv(2605.19660)에도 공개돼 있고, 코드와 평가 도구도 함께 풀렸다. 오픈소스로 공개됐다는 점은 특정 기업의 폐쇄 기술에 갇히지 않고 누구나 검증·개선할 수 있다는 의미이기도 하다. 자체 모델을 직접 서빙하려는 국내 기업·연구실이라면, 비용 절감 카드로 적용 가능성을 살펴볼 만한 기술이다.

자세한 내용은 마크테크포스트(MarkTechPost)에서 확인할 수 있다.

이미지 출처: 이디오그램 생성