ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching
검색 API 비용 586달러 vs 제로서치 70달러… 검색 엔진 없는 AI 검색의 탄생
대형 언어 모델(LLM)은 수학적 추론, 질문 응답, 코드 생성 등 다양한 분야에서 놀라운 성능을 보여주고 있다. 그러나 이러한 모델들은 사전 학습 데이터에 국한된 정적 지식만을 가지고 있어 환각(hallucination)이나 오래된 정보를 생성하는 경우가 많다. 이런 문제를 해결하기 위해 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술이 광범위하게 활용되고 있지만, 최근 강화학습(RL)을 통해 검색 능력을 향상시키는 방법이 주목받고 있다.
Search-R1, R1-Searcher, ReSearch와 같은 강화학습 기반 모델들은 실제 검색 엔진과 상호작용하며 학습하는 방식을 채택했다. 특히 DeepResearcher는 구글(Google)과 같은 상용 검색 엔진과 직접 상호작용하는 방식을 도입했다. 그러나 이러한 접근법은 두 가지 주요 문제에 직면하고 있다. 첫째, 실제 검색 엔진에서 반환되는 문서의 품질이 예측 불가능하여 학습 과정에 노이즈와 불안정성을 초래한다. 둘째, 강화학습 훈련은 수십만 건의 검색 요청을 필요로 하며, 이는 상당한 API 비용을 발생시키고 확장성을 심각하게 제한한다.
이러한 문제점을 해결하기 위해 알리바바 그룹(Alibaba Group)의 통이 연구소(Tongyi Lab) 연구팀은 실제 검색 엔진과 상호작용 없이도 LLM의 검색 능력을 향상시킬 수 있는 ‘제로서치(ZEROSEARCH)’라는 강화학습 프레임워크를 개발했다.
“AI가 검색 엔진 흉내내기”… 경량 미세 조정으로 3B 모델도 검색 엔진 역할 가능
제로서치의 핵심은 LLM을 활용해 실제 검색 엔진을 시뮬레이션하는 것이다. 연구팀은 대형 언어 모델이 사전 학습 중에 방대한 세계 지식을 습득했으며, 검색 쿼리가 주어지면 관련 문서를 생성할 수 있는 능력이 있다는 점에 착안했다. 실제 검색 엔진과 시뮬레이션 LLM의 주요 차이점은 단지 반환된 콘텐츠의 텍스트 스타일에 있으며, 경량 지도학습 미세 조정을 통해 비교적 작은 LLM도 실제 검색 엔진의 동작을 효과적으로 시뮬레이션할 수 있다는 것을 발견했다.
연구팀은 먼저 LLM이 실제 검색 엔진과 다중 턴 방식으로 상호작용하도록 프롬프팅하여 최종 답변에 도달할 때까지의 상호작용 궤적을 수집했다. 정답을 도출한 궤적은 ‘긍정적’ 데이터로 분류되어 검색된 문서가 유용했음을 나타내고, 오답을 낸 궤적은 ‘부정적’ 데이터로 분류되어 노이즈가 있는 검색 결과를 나타낸다. 이를 통해 유용하거나 노이즈가 있는 문서를 생성할 수 있는 능력을 갖춘 시뮬레이션 LLM을 얻을 수 있었다.
제로서치의 또 다른 중요한 장점은 문서 품질을 제어할 수 있다는 점이다. 롤아웃 중 문서 품질을 점진적으로 저하시키는 커리큘럼 기반 롤아웃 메커니즘을 통해 정책 모델이 기본 출력 형식과 태스크 요구 사항을 먼저 학습한 다음 점차 더 어렵고 노이즈가 있는 검색 시나리오에 적응할 수 있도록 한다.
14B 모델, 구글 검색보다 높은 정확도… 7개 데이터셋에서 입증된 우수성
제로서치의 성능을 검증하기 위해 연구팀은 단일 홉 질문 응답(NQ, TriviaQA, PopQA)과 다중 홉 질문 응답(HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle) 데이터셋에서 광범위한 실험을 수행했다. 모델로는 Qwen-2.5-7B, Qwen-2.5-3B, LLaMA-3.2-3B를 사용했으며, 실험 결과 제로서치는 모든 기준 방법보다 일관되게 우수한 성능을 보여주었다. 특히 주목할 만한 점은 7B 매개변수 규모의 검색 모듈이 구글 검색과 비슷한 성능을 달성했으며, 14B 검색 모듈은 구글 검색을 능가했다는 것이다. 이는 적절히 훈련된 LLM이 강화학습 설정에서 실제 검색 엔진의 대체물로 사용될 수 있음을 보여준다.
비용 측면에서도 제로서치는 큰 장점을 보인다. 연구팀의 비용 분석에 따르면, 약 64,000건의 검색 요청을 처리하는 12시간의 훈련 과정에서 구글 검색을 사용할 경우 약 586.7달러의 API 비용이 발생하는 반면, 시뮬레이션 LLM을 사용할 경우 GPU 비용이 모델 크기에 따라 17.7달러(3B), 35.4달러(7B), 70.8달러(14B)에 불과했다.
“쉬운 것부터 어려운 것으로”… 역방향보다 5.8% 높은 성능 보인 커리큘럼 학습 전략
제로서치의 독특한 특징 중 하나는 문서 품질을 점진적으로 저하시키는 커리큘럼 기반 롤아웃 메커니즘이다. 이 접근법은 노이즈가 있는 문서를 생성할 확률을 시간이 지남에 따라 점진적으로 증가시키는 확률 함수에 의해 제어된다. 이를 통해 정책 모델은 먼저 기본 출력 구조와 태스크 요구 사항을 학습한 다음, 점차 더 어렵고 노이즈가 있는 검색 시나리오에 적응할 수 있다.
연구팀은 이러한 커리큘럼 접근법의 효과를 검증하기 위해 표준 커리큘럼(쉬운→어려운)과 역방향 커리큘럼(어려운→쉬운)을 비교했다. 실험 결과, 표준 커리큘럼이 두 모델 모두에서 일관되게 역방향 커리큘럼보다 우수한 성능을 보였다. 이는 더 좋은 검색 결과로 시작하면 정책 모델이 먼저 검색 엔진을 호출하는 방법과 기본 출력 형식을 이해할 수 있도록 도와준다는 것을 시사한다. 연구팀은 또한 제로서치가 PPO(Proximal Policy Optimization)와 GRPO(Group Relative Policy Optimization)와 같은 다양한 강화학습 알고리즘과 호환된다는 것을 증명했다. 이는 제로서치의 높은 범용성과 적용성을 보여준다.
비용 88% 절감, 성능은 더 우수…AI의 진화를 가속화할 제로서치의 미래
제로서치는 실제 검색 엔진과 상호작용 없이도 LLM의 검색 능력을 향상시킬 수 있는 효과적인 방법을 제시했다. 이 연구는 LLM의 내재된 지식을 활용하여 검색 시뮬레이션을 수행함으로써 API 비용을 크게 절감하고 훈련 안정성을 향상시킬 수 있음을 보여준다. 이 연구는 아직 논문 심사 중인 상태이며, 향후 더 다양한 모델과 데이터셋에서의 검증이 필요하다. 그러나 이미 실제 검색 엔진을 능가하는 성능을 보여줌으로써 생성형 AI 분야에 새로운 가능성을 제시했다고 볼 수 있다.
FAQ
Q: 제로서치(ZEROSEARCH)는 기존의 검색 증강 생성(RAG) 기술과 어떻게 다른가요?
A: 기존 RAG 기술은 외부 검색 엔진이나 데이터베이스에서 정보를 검색하여 LLM의 생성에 활용합니다. 반면 제로서치는 실제 검색 엔진 없이 다른 LLM을 활용해 검색 엔진을 시뮬레이션하고, 강화학습을 통해 모델의 검색 능력을 향상시키는 방식입니다. 이로써 API 비용을 절감하고 문서 품질을 제어할 수 있는 장점이 있습니다.
Q: LLM이 검색 엔진 역할을 할 수 있다는 게 정말 가능한가요?
A: 네, 가능합니다. 연구에 따르면 LLM은 사전 학습 과정에서 방대한 세계 지식을 습득했으며, 경량 지도학습 미세 조정을 통해 검색 엔진처럼 관련 문서를 생성할 수 있습니다. 실험 결과 7B 규모의 모델은 구글 검색과 비슷한 성능을, 14B 모델은 구글 검색보다 더 좋은 성능을 보였습니다.
Q: 커리큘럼 학습 전략은 제로서치에서 어떤 역할을 하나요?
A: 커리큘럼 학습 전략은 훈련 과정에서 생성되는 문서의 품질을 점진적으로 저하시켜 모델이 점점 더 어려운 검색 시나리오에 적응할 수 있도록 합니다. 이 전략을 통해 모델은 먼저 기본적인 검색 기능을 마스터한 후 점차 더 복잡한 추론 능력을 발전시킬 수 있으며, 역방향 커리큘럼(어려운→쉬운)보다 더 효과적인 학습 결과를 보여줍니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.