Sleep-time Compute: Beyond Inference Scaling at Test-time
5배 더 효율적인 AI 추론: 수면 시간 연산의 혁신적 접근법
대형 언어 모델(LLM)은 어려운 문제를 해결하기 위해 테스트 시간 연산 규모를 확장하는 방식을 사용해왔지만, 이는 응답에 수 분을 기다리게 하고 쿼리당 최대 수십 달러의 비용이 발생하는 단점이 있다. UC 버클리의 Sky Computing Lab에서 시작된 AI 스타트업 레타(Letta)와 UC 버클리 연구팀이 개발한 ‘수면 시간 연산(Sleep-time Compute)’은 사용자 쿼리가 제시되기 전에 컨텍스트를 미리 처리함으로써 테스트 시간 연산량을 약 5배까지 줄이는 혁신적 접근법이다.
현실적으로 많은 LLM 애플리케이션은 본질적으로 상태 유지형(stateful)이며, 재사용되는 컨텍스트와 함께 작동한다. 문서 질의응답, 코딩 에이전트, 대화형 비서 등이 그 예로, 이러한 애플리케이션에는 다음 사용자 입력이 들어오기 전에 이미 사용 가능한 컨텍스트(문서, 코드베이스, 대화 기록)가 있다. 수면 시간 연산은 모델이 다음 상호작용 사이에 ‘잠자는 시간’에 기존 컨텍스트에 대한 유용한 추론을 수행하고, 테스트 시간에 낮은 지연 시간으로 사용자 쿼리에 응답할 수 있게 한다.
최대 18% 정확도 향상: 수면 시간 연산의 성능 증명
연구팀은 두 가지 수학적 추론 작업(Stateful GSM-Symbolic과 Stateful AIME)에서 수면 시간 연산의 효과를 검증했다. 동일한 정확도를 위해 필요한 테스트 시간 연산량이 약 5배 감소했을 뿐만 아니라, 수면 시간 연산의 규모를 확장함으로써 Stateful GSM-Symbolic에서는 최대 13%, Stateful AIME에서는 최대 18%까지 정확도를 추가로 향상시키는 데 성공했다.
연구팀은 GSM-Symbolic의 P1과 P2 데이터셋에서 GPT-4o-mini와 GPT-4o 모델을 사용하여 실험을 진행했다. AIME 데이터셋에서는 OpenAI의 o1, o3-mini, Anthropic의 Claude Sonnet 3.7 Extended Thinking, Deepseek-R1 모델을 평가했다. 실험 결과, 수면 시간 연산이 적용된 모델들은 표준 테스트 시간 연산 방식보다 현저히 나은 성능을 보였다.
또한 연구팀은 병렬 테스트 시간 연산과 수면 시간 연산을 비교했는데, 수면 시간 연산이 동일한 테스트 시간 토큰 예산에서 ‘pass@k 병렬 스케일링’보다 일관되게 우수한 성능을 보였다. 이는 수면 시간 연산이 표준 병렬 테스트 시간 스케일링보다 추론 시간 컴퓨팅을 스케일링하는 더 효과적인 방법이 될 수 있음을 입증한다.

2.5배 비용 효율화: 공유 컨텍스트에서의 수면 시간 연산 분산
연구팀이 개발한 Multi-Query GSM-Symbolic 데이터셋은 하나의 컨텍스트에 대해 여러 관련 쿼리를 포함하는 환경을 제공한다. 이 환경에서 동일한 컨텍스트에 관한 관련 쿼리들에 걸쳐 수면 시간 연산을 분산함으로써, 쿼리당 평균 비용을 2.5배까지 절감할 수 있었다. 이는 다중 쿼리 시나리오에서 수면 시간 연산의 경제적 가치를 명확히 보여준다.
이 실험에서 연구팀은 테스트 시간에 엄격한 지연 시간 제약이 있고 지연 시간 최적화된 추론이 약 10배 더 비싸다는 점을 고려하여, 테스트 시간 토큰 비용을 수면 시간 토큰의 10배로 가중치를 두는 선형 모델을 사용했다. 실험 결과, 컨텍스트당 질문 수가 증가할수록 수면 시간 연산의 비용 효율성이 크게 향상됨을 확인했다.
예측 가능한 쿼리에서 최대 효과: 수면 시간 연산의 최적 적용 조건
컨텍스트에서 쿼리 패턴이 더 예측 가능할수록 수면 시간 연산의 효과가 극대화된다는 사실이 밝혀졌다. 연구팀은 Stateful GSM-Symbolic의 예제를 예측 가능성 점수에 따라 5개 분위로 나누고 각 빈에서의 정확도를 보고했다. 그 결과, GSM8K-Symbolic P1과 P2 모두에서 질문이 더 예측 가능해질수록 수면 시간 연산과 표준 테스트 시간 연산 사이의 정확도 격차가 넓어졌다.
연구팀은 각 쿼리의 예측 가능성을 정량화하기 위해 Llama2-70B 기본 모델을 사용하여 컨텍스트를 기반으로 질문의 로그 확률을 측정했다. 예를 들어, 가장 예측 가능한 GSM-Symbolic P1 질문으로는 “유수프(Yusuf)는 10 평방 야드의 포도 밭을 가지고 있다. 3분의 2 평방 야드당 87개의 포도가 있다. 유수프는 12개월마다 포도를 수확할 수 있다”라는 컨텍스트에 “유수프가 2년 동안 수확할 수 있는 포도는 몇 개인가?”라는 질문이 있었다. 반면에 가장 예측하기 어려운 질문은 도서관, 영화관 등 여러 장소를 방문하는 복잡한 시나리오와 관련된 것이었다.
1.5배 테스트 시간 감소: 실제 소프트웨어 개발에서의 적용 사례
연구팀은 SWE-Features라는 벤치마크를 사용해 여러 파일을 편집하고 새 기능을 구현해야 하는 소프트웨어 엔지니어링 작업에 수면 시간 연산을 적용했다. 낮은 테스트 시간 컴퓨팅 예산에서는 테스트 시간 토큰을 약 1.5배 감소시키는 성능 향상을 보였다. 다만, 높은 테스트 시간 컴퓨팅 예산에서는 테스트 시간 연산만 사용하는 것이 더 효과적이었다.
SWE-Features 벤치마크는 SWE-Bench와 달리 최소 3개 이상의 파일을 수정해야 하는 PR(Pull Request)을 수집하여 구성했다. 이 실험에서는 해결해야 할 PR을 ‘q’로, 관련 PR 여러 개를 ‘c’로 설정했다. 수면 시간에 에이전트는 ‘c”를 생성하기 전에 저장소를 탐색할 수 있었다. 평가는 에이전트가 수정한 파일 집합과 그라운드 트루스 세트 간의 F1 점수를 기준으로 했다.
향후 연구 방향: 수면 시간 연산의 가능성과 한계
연구팀은 후속 연구를 위한 몇 가지 중요한 방향성을 제시했다. 질문 예측 가능성과 수면 시간 연산 할당에 관한 연구, 다중 상호작용 및 컨텍스트 수정이 있는 복잡한 실제 시나리오로의 확장, 그리고 자연어 표현 학습으로서의 수면 시간 연산 등이 그것이다. 수면 시간 연산은 쿼리 작업량 패턴을 미리 예측할 수 있다는 가정하에 쿼리 지연 시간과 사전 계산 오버헤드 사이의 균형을 맞추는 방식으로 작동한다. 이는 LLM 사전 훈련을 위한 합성 데이터 생성과 같은 분야에서도 응용될 수 있는 가능성을 보여준다.
FAQ
Q: 수면 시간 연산(Sleep-time Compute)이란 정확히 무엇인가요?
A: 수면 시간 연산은 대형 언어 모델이 사용자의 실제 질문이 제시되기 전에, 주어진 컨텍스트에 대해 오프라인 상태에서 미리 추론하고 계산하는 기술입니다. 이렇게 미리 처리된 정보는 실제 질문에 답할 때 활용되어 응답 시간과 컴퓨팅 비용을 크게 줄여줍니다.
Q: 기존의 테스트 시간 연산과 비교했을 때 수면 시간 연산의 주요 이점은 무엇인가요?
A: 수면 시간 연산의 주요 이점은 동일한 정확도를 유지하면서도 필요한 테스트 시간 연산량을 약 5배 감소시킬 수 있다는 점입니다. 또한 여러 관련 질문이 같은 컨텍스트를 공유할 때 쿼리당 평균 비용을 2.5배까지 절감할 수 있어 실시간 응답 시나리오에서 특히 유용합니다.
Q: 수면 시간 연산은 모든 종류의 질문에 효과적인가요?
A: 연구 결과에 따르면, 수면 시간 연산은 컨텍스트에서 질문이 예측 가능할수록 더 효과적입니다. 예측하기 어렵거나 컨텍스트와 관련이 없는 질문에는 효과가 제한적일 수 있으며, 이런 경우에는 기존의 테스트 시간 연산이 더 적합할 수 있습니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.