Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning
AI가 수학 문제를 잘 풀 수 있게 훈련시키려면 어떤 문제를 주는 것이 좋을까? 네이버 클라우드(NAVER Cloud)와 KAIST AI 연구진이 답을 찾았다. AI가 절반 정도 맞힐 수 있는 중간 난이도 문제로 훈련시키면 학습 효과가 가장 좋다는 것이다. 이를 ‘균형 온라인 난이도 필터링(Balanced Online Difficulty Filtering)’이라고 부르며, AI 모델이 현재 수준에서 50% 정도 맞출 수 있는 문제들만 골라서 훈련에 사용한다.
AI 학습에서는 사람처럼 단계별로 어려운 문제를 차근차근 배우는 것이 중요하다. 너무 쉬운 문제는 새로 배울 것이 없고, 너무 어려운 문제는 도저히 풀 수 없어서 포기하게 된다. 마치 중학생에게 대학 수학 문제를 주거나 초등학교 산수 문제를 주는 것과 같다. 연구진은 수학적 분석을 통해 AI가 50% 정도 맞힐 수 있는 문제가 학습에 가장 도움이 된다는 것을 증명했다.
가장 어려운 수학 시험에서 10% 더 높은 점수 달성
해당 연구 논문에 따르면, 이 새로운 방법으로 AI를 훈련시킨 결과, 기존 방법보다 평균 4% 더 좋은 성과를 거뒀다. 특히 미국의 가장 어려운 수학 경시대회인 AIME(American Invitational Mathematics Examination)에서는 무려 10% 포인트나 더 높은 점수를 받았다. 이는 마치 평소 60점 받던 학생이 갑자기 70점을 받게 된 것과 같은 큰 향상이다.
연구진은 Qwen2.5-3B라는 AI 모델을 사용해서 5가지 서로 다른 수학 시험으로 실험했다. 기존 방법들은 미리 정해진 순서대로 쉬운 문제부터 어려운 문제까지 차례로 풀게 했지만, 새로운 방법은 실시간으로 AI의 실력을 파악해서 딱 맞는 난이도의 문제만 골라준다. AI가 문제를 16번 풀어본 결과를 보고 통과율을 계산한 다음, 25%에서 75% 사이로 맞힐 수 있는 문제들만 다음 훈련에 사용한다.
훈련 시간을 절반으로 줄이면서도 더 좋은 결과
이 방법의 가장 큰 장점은 훈련 시간과 비용을 크게 줄일 수 있다는 것이다. 기존 방법으로 100일 걸리던 훈련을 60일 만에 끝낼 수 있으면서도 더 좋은 성과를 낼 수 있다. AI 훈련에는 엄청난 전기료와 컴퓨터 비용이 들기 때문에 이런 효율성 향상은 매우 중요하다.
연구 결과, 너무 쉽거나 너무 어려운 문제들을 모두 제거하는 균형 잡힌 방법이 한쪽만 제거하는 방법보다 훨씬 효과적이었다. 마치 운동할 때 너무 가벼운 무게로도 너무 무거운 무게로도 근육이 늘지 않는 것처럼, AI도 적당한 난이도의 문제로 훈련해야 실력이 늘어난다. 연구진의 분석에 따르면 100% 맞히거나 0% 맞히는 문제들은 AI가 새로 배울 것이 전혀 없어서 시간 낭비일 뿐이다.
AI 실력이 늘면 자동으로 더 어려운 문제 제공
이 방법의 또 다른 신기한 점은 AI가 실력이 늘어갈수록 자동으로 더 어려운 문제를 제공한다는 것이다. 처음에는 AI가 절반 정도 맞힐 수 있는 비교적 쉬운 문제들로 시작하지만, 훈련이 진행되면서 AI의 실력이 늘어나자 더 어려운 문제들이 자연스럽게 훈련 세트에 포함됐다. 이는 마치 게임에서 레벨이 올라갈수록 더 강한 몬스터가 나타나는 것과 비슷하다.
실험에서 사용한 방법은 여러 개의 문제를 동시에 처리할 수 있도록 설계돼서 훈련 과정이 안정적이고 빨랐다. 각 문제를 몇 번씩 풀어봤는지 기록해서 같은 문제를 반복하지 않도록 하고, 정해진 개수의 문제가 모이면 바로 훈련을 시작할 수 있도록 만들어졌다.
FAQ
Q: 왜 50% 정도 맞히는 문제가 학습에 가장 좋은가요?
A: 사람이 공부할 때도 너무 쉬우면 배울 게 없고 너무 어려우면 포기하게 되는 것처럼, AI도 마찬가지입니다. 50% 정도 맞힐 수 있는 문제는 AI가 노력하면 풀 수 있으면서도 새로운 것을 배울 수 있는 딱 좋은 난이도입니다.
Q: 이 방법이 기존 방법보다 왜 더 효과적인가요?
A: 기존 방법은 미리 정해진 순서대로 문제를 주지만, 새로운 방법은 AI의 현재 실력을 실시간으로 파악해서 딱 맞는 난이도의 문제만 골라줍니다. 덕분에 가장 어려운 수학 시험에서 10% 더 높은 점수를 받을 수 있었습니다.
Q: 실제로 어떤 분야에서 이 기술을 사용할 수 있나요?
A: 수학 문제를 푸는 AI, 논리적 추론이 필요한 AI, 복잡한 문제 해결 AI 등을 만들 때 사용할 수 있습니다. 훈련 시간과 비용을 절반으로 줄이면서도 더 좋은 성능의 AI를 만들 수 있어서 매우 실용적입니다.
해당 기사에 인용한 논문 원문은 arvix에서 확인 가능하다.
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.