Absolute Zero: Reinforced Self-play Reasoning with Zero Data
스스로 문제 내고 푸는 AI: 인간 데이터 의존성 탈피한 새로운 추론 모델
대규모 언어 모델(LLM)의 추론 능력을 향상시키는 방법으로 검증 가능한 보상을 통한 강화학습(RLVR)이 주목받고 있다. 이 방식은 모델이 추론 과정의 중간 단계를 명시적으로 모방하는 대신 결과 기반 피드백만을 사용해 대규모 데이터셋에서 강화학습을 가능하게 한다. 최근 등장한 ‘제로’ RLVR 패러다임은 추론 과정 라벨링에 인간의 개입을 피하면서도 여전히 인간이 수작업으로 구성한 문제-답변 쌍 데이터셋에 크게 의존하고 있다. 이런 방식은 고품질 인간 제작 예제의 희소성 때문에 장기적 확장성에 대한 우려를 낳고 있으며, 이 문제는 언어 모델 사전 훈련 분야에서도 이미 분명하게 나타나고 있다.
더 나아가, 인공지능이 인간 지능을 뛰어넘는 가상의 미래에서는 인간이 제공하는 과제가 초지능 시스템의 학습 잠재력을 제한할 수 있다. 이러한 우려를 해결하기 위해 칭화대학교, 북경일반인공지능연구소, 펜실베니아주립대학교 연구팀은 ‘절대 제로(Absolute Zero)’라는 새로운 RLVR 패러다임을 제안했다. 절대 제로는 단일 모델이 자신의 학습 진행을 최대화하는 작업을 스스로 제안하고, 외부 데이터에 의존하지 않고 이를 해결함으로써 추론 능력을 향상시키는 방식이다. 연구팀은 이 패러다임에 따라 코드 실행기가 제안된 코드 추론 작업을 검증하고 답변을 확인하는 ‘절대 제로 추론기(Absolute Zero Reasoner, AZR)’를 개발했다.
코딩 3종 추론법으로 자기 진화: AZR의 연역-귀납-귀추 자가학습 메커니즘
AZR은 외부 데이터 없이 코드 실행기를 검증 가능한 환경으로 사용해 자기 주도적 추론 학습을 진행한다. 이 시스템은 세 가지 기본 추론 모드에 해당하는 세 가지 유형의 코딩 작업을 학습한다. 연역법(Deduction)은 프로그램과 입력이 주어졌을 때 출력을 예측하는 작업으로, 시스템이 단계별 논리적 추론 과정을 통해 결론에 도달하는 능력을 키운다. 귀납법(Induction)은 여러 입출력 예제 쌍을 관찰하여 그 뒤에 숨겨진 프로그램을 합성하는 작업으로, 부분적인 정보로부터 일반적인 규칙을 도출해내는 능력을 요구한다. 귀추법(Abduction)은 프로그램과 최종 출력이 주어졌을 때 어떤 입력이 그 결과를 만들었는지 역으로 추론하는 작업으로, 시행착오를 거치거나 온라인 검색 과정과 유사한 방식으로 진행된다.
AZR은 이러한 작업 유형을 통해 코드를 표현력 있고 검증 가능한 매체로 활용하여 개방형 도메인에서 완전히 자기 개선 시스템을 구현한다. 연역법은 프로그램과 입력이 주어졌을 때 출력을 예측하는 과정으로 단계별 논리적 추론을 포착한다. 귀납법은 입출력 예제 집합에서 프로그램을 합성하는 것으로 부분 정보로부터 일반화가 필요하다. 귀추법은 프로그램과 출력이 주어졌을 때 가능한 입력을 추론하는 것으로 시행착오 또는 온라인 검색과 유사하다. 모든 작업은 코드 실행기를 통해 검증되며, 모델은 제안자와 해결자 역할을 번갈아 수행하면서 학습한다.

인간 전문가 데이터 없이도 1.8% 성능 향상: 작은 모델에서 더 큰 도약
외부 데이터가 전혀 없이 훈련된 절대 제로 추론기는 놀랍게도 코딩 및 수학적 추론 과제에서 기존 ‘제로’ 세팅 모델보다 평균 1.8% 포인트 높은 성능을 달성했다. 이는 인간이 큐레이션한 도메인 대상 데이터 없이도 일반적인 추론 기술이 출현할 수 있음을 보여준다. 연구 결과에 따르면 코딩 능력이 뛰어난 기본 모델로 시작할 경우 AZR 훈련 후 수학 성능이 더 크게 향상되었다. 예를 들어, Qwen-Coder-7b 모델은 훈련 전 수학 성능이 Qwen-7b보다 3.6% 포인트 낮았지만, AZR 훈련 후에는 0.7% 포인트 더 높은 성능을 보였다. 모델 크기에 따른 성능도 주목할 만하며, 3B, 7B, 14B 코더 모델은 각각 +5.7, +10.2, +13.2 포인트의 성능 향상을 보였다. 이는 AZR에 대한 지속적인 스케일링이 유리함을 시사한다.
AI의 스스로 생각하는 방식: 계획-주석-코딩으로 발견된 ReAct 패턴
연구진은 절대 제로 시스템이 인간의 개입 없이 자체 학습 능력을 발전시킨다는 점에서 큰 의미가 있다고 강조한다. 더불어 AZR 모델에서 다양한 흥미로운 행동 패턴이 관찰되었는데, 특히 코드 귀납 작업 중 최종 코드 출력이 단계별 계획이 포함된 주석과 함께 나타나는 현상이 발견되었다. 이는 ReAct 프롬프팅 프레임워크와 유사하며, DeepSeek Prover v2(671B)와 같은 훨씬 더 큰 수학 증명 모델에서도 유사한 행동이 관찰되었다. 따라서 연구진은 길고 복잡한 응답을 생성할 때 모델이 중간 스크래치패드를 사용하도록 허용하는 것이 다른 도메인에서도 유익할 수 있다고 제안한다.
한편, 이 연구는 자기 개선 컴포넌트로 구성된 시스템의 안전한 관리 방법을 다루지 않았다는 한계도 있다. 연구팀은 Llama-3.1-8B 모델에서 “uh-oh 순간”이라 부르는 안전 우려 사례를 발견했으며, 이는 인간의 개입을 줄이면서도 안전에 대한 지속적인 감독의 필요성을 시사한다. 연구진은 절대 제로 패러다임이 데이터 의존성에서 벗어나 경험 기반 학습으로 전환하는 중요한 이정표가 될 것이라 전망한다. 이는 인공지능의 새로운 시대, ‘경험의 시대’의 시작을 알리는 신호가 될 수 있다.
FAQ
Q: 절대 제로 추론기는 어떻게 외부 데이터 없이 학습할 수 있나요?
A: 절대 제로 추론기는 코드 실행기를 환경으로 활용해 자신이 제안한 코딩 과제를 검증하고 답변을 확인합니다. 이 과정에서 모델은 제안자와 해결자 역할을 번갈아 수행하며, 코드 실행 결과를 통해 검증 가능한 피드백을 받아 학습합니다. 이런 방식으로 외부 데이터 없이도 자체적인 학습 루프를 구축할 수 있습니다.
Q: 절대 제로 모델이 기존 모델보다 더 나은 이유는 무엇인가요?
A: 절대 제로 모델은 인간이 큐레이션한 데이터에 의존하지 않고 자신만의 학습 과제를 생성하고 해결함으로써 더욱 다양하고 복잡한 추론 과제에 노출됩니다. 이 과정에서 연역법, 귀납법, 귀추법과 같은 다양한 추론 방식을 학습하게 되며, 이러한 다양성이 코딩과 수학적 추론 능력 모두에 도움이 됩니다.
Q: 이 연구가 AI 개발에 가져올 변화는 무엇인가요?
A: 이 연구는 AI 시스템이 인간의 데이터 큐레이션 한계를 넘어설 수 있는 방법을 제시합니다. 절대 제로 패러다임은 모델이 자체적으로 학습 과제를 정의하고 해결하는 능력을 갖추게 함으로써, 향후 초인간적 추론 능력을 갖춘 AI 개발에 중요한 단계가 될 수 있습니다. 또한 이것은 AI가 ‘데이터의 시대’에서 ‘경험의 시대’로 전환하는 신호가 될 수 있습니다.
해당 기사에서 인용한 논문 원문은 링크에서 확인할 수 있다.
이미지 출처: 이디오그램 생성
기사는 클로드와 챗GPT를 활용해 작성되었습니다.