Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning
대규모 언어 모델의 추론 능력 개선을 위한 혁신적 접근법 제시
Google DeepMind 연구진이 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 새로운 방법론인 ‘프로세스 어드밴티지 검증기(Process Advantage Verifier, PAV)’를 개발했다. 이 연구는 LLM의 다단계 추론 과정에서 각 단계의 ‘진전’을 측정하고 보상하는 혁신적인 접근법을 제시하며, 특히 수학적 추론 능력 향상에 초점을 맞추고 있다.
연구진은 기존의 결과 보상 모델(Outcome Reward Model, ORM)이 제공하는 희소한 피드백의 한계를 극복하기 위해, 추론 과정의 각 단계에서 피드백을 제공하는 프로세스 보상 모델(Process Reward Model, PRM)에 주목했다. 그러나 기존 PRM 접근법들은 인간의 세밀한 주석이 필요하거나, 자동화된 주석을 사용하더라도 성능 향상이 제한적이었다. 이러한 배경에서 연구진은 “프로세스 보상을 어떻게 설계해야 하는가?”라는 핵심 질문에 답하기 위해 PAV를 개발했다.
PAV의 핵심 개념: ‘진전’ 측정을 통한 추론 능력 향상
PAV의 핵심 아이디어는 각 단계의 보상이 ‘진전’을 측정해야 한다는 것이다. 여기서 말하는 진전이란, 해당 단계를 거친 후 올바른 응답을 생성할 확률의 변화를 의미한다. 이는 강화학습에서의 단계별 이점(step-level advantage)과 유사한 개념이다. 이러한 접근법은 단순히 각 단계의 수학적 정확성이나 관련성을 평가하는 것을 넘어, 전체 추론 과정에서의 실질적인 진전을 측정할 수 있게 한다.
Google DeepMind의 아브리스 세툴(Amrith Setlur) 연구원은 “우리의 접근법은 테스트 시 검색과 온라인 강화학습 모두에서 효과적임이 입증되었습니다. 특히 문제 해결 접근 방식이 명확하지 않은 초기 단계에서 가능한 답변들을 다양하게 탐색하는 데 중요한 역할을 합니다”라고 설명했다.
증명자 정책: PAV의 효과적인 학습을 위한 핵심 요소
연구진은 PAV를 학습시키기 위해 ‘증명자(prover) 정책’이라는 개념을 도입했다. 증명자 정책은 기본 정책과는 구별되는 별도의 정책으로, 각 단계에서의 진전을 평가하는 데 사용된다. 이는 기본 정책의 성능이 낮은 경우에도 유용한 피드백을 제공할 수 있게 한다.
연구 결과, 너무 강력하거나 약한 증명자 정책보다는 기본 정책을 보완하는 중간 수준의 증명자 정책이 가장 효과적임이 밝혀졌다. 이는 매우 능숙한 증명자 정책의 경우 모든 단계에서 쉽게 성공할 수 있어 단계 간 차이를 구분하기 어렵고, 반대로 매우 약한 정책은 유용한 피드백을 제공하지 못하기 때문이다.
연구진은 이러한 직관을 이론적으로 형식화하여 ‘좋은 증명자’의 집합을 정의했다. 이들의 분석에 따르면, 기본 정책보다 약한 증명자 정책도 때로는 더 강한 기본 정책을 개선할 수 있음이 밝혀졌다. 이는 약한 증명자 정책이 기본 정책이 생성한 단계들을 더 잘 구별할 수 있는 경우가 있기 때문이다.
PAV의 성능: 테스트 시 검색과 온라인 강화학습에서의 우수성 입증
이론적 분석과 실험을 통해 연구진은 PAV의 효과성을 입증했다. 테스트 시 검색에서 PAV를 사용한 빔 검색은 ORM을 사용한 방법보다 8% 이상 정확도가 높았고, 1.5-5배 더 계산 효율적이었다. 이는 PAV가 제공하는 밀도 높은 보상이 유한한 용량의 빔 내에서 해결책 탐색의 효율성을 크게 향상시켰기 때문이다.
또한 온라인 강화학습에서 PAV를 밀도 높은 보상으로 사용했을 때, 샘플 효율성이 5-6배 향상되고 정확도가 6% 이상 증가하는 결과를 얻었다. 이는 PAV가 각 단계에서의 진전을 정확히 포착하고, 이를 통해 더 효과적인 탐색을 가능하게 하기 때문이다.
Google DeepMind의 아브랄 쿠마르(Aviral Kumar) 연구원은 “PAV를 사용한 강화학습은 기존 ORM만 사용했을 때보다 훨씬 더 효율적으로 학습합니다. 특히 Pass@N 성능, 즉 N번의 시도 내에 올바른 해답을 찾을 확률이 8배 이상 향상되었습니다. 이는 PAV가 학습된 정책의 다양성을 유지하면서도 정확도를 높이는 데 효과적임을 보여줍니다”라고 덧붙였다.
더불어 PAV를 사용한 강화학습은 기존의 SFT(Supervised Fine-Tuning) 정책이 매우 큰 샘플링 예산으로도 해결하지 못한 어려운 문제들을 해결할 수 있었다. 이는 PAV가 복잡한 추론 과정에서 중요한 단계들을 식별하고 강화하는 데 효과적임을 시사한다.
이번 연구는 LLM의 추론 능력 향상을 위한 새로운 패러다임을 제시했다는 점에서 의의가 크다. PAV 방법론은 수학적 추론뿐만 아니라 다양한 복잡한 추론 태스크에 적용될 수 있을 것으로 기대된다. 또한 이 연구는 AI 시스템의 추론 과정을 더 잘 이해하고 개선하는 데 중요한 통찰을 제공한다.
향후 연구진은 PAV를 다양한 도메인과 태스크에 적용하여 그 일반화 가능성을 탐구할 계획이다. 특히 자연어 처리, 코드 생성, 로봇 제어 등 복잡한 순차적 의사결정이 필요한 영역에서 PAV의 효과를 검증하고자 한다. 또한 증명자 정책의 최적 설계와 PAV의 학습 과정 개선 등을 통해 더욱 강력한 추론 능력을 갖춘 AI 시스템 개발을 목표로 하고 있다.
이 연구는 AI의 추론 능력 향상이라는 중요한 과제에 대한 새로운 해법을 제시했다는 점에서 AI 커뮤니티의 큰 관심을 받고 있다. PAV와 같은 혁신적인 접근법을 통해 AI 시스템이 더욱 정교하고 신뢰할 수 있는 추론을 수행할 수 있게 될 것으로 기대된다. 이는 AI의 실용적 응용 범위를 크게 확장하고, 인간과 AI의 협력 가능성을 한층 더 높일 수 있는 중요한 진전이라 할 수 있다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기