AI가 세계 최고 물리올림피아드에서 처음으로 만점을 받았다

전 세계 100개국 이상의 최상위 고등학생들이 겨루는 국제물리올림피아드(IPhO)에서 인공지능(AI)이 처음으로 만점을 기록했다. 캘리포니아 산타클라리타의 연구자 황이천(Yichen Huang)이 구글 딥마인드의 제미나이(Gemini) 3.1 프로 프리뷰를 기반으로 설계한 AI 에이전트는 2025년 IPhO 이론 문제를 5번 연속 완벽하게 풀어냈다. 그러나 모델이 시험 문제를 사전에 학습했을 가능성, 즉 데이터 오염(data contamination) 문제가 남아 있어 결과를 신중하게 해석해야 한다.

인류 최고 두뇌들이 겨루는 대회, AI가 정복하다

국제물리올림피아드(IPhO)는 1967년 폴란드에서 5개국 참가로 시작해 현재 100개국 이상이 참여하는 세계 최고 권위의 고등학생 물리 대회다. 참가자들은 이틀에 걸쳐 각 5시간씩 역학, 전자기학, 열역학, 특수상대성이론 등 대학교 1학년 수준의 물리 문제를 푼다. 금메달은 전체 참가자의 12분의 1에게만 주어지는 매우 드문 영예다.

미국의 경우, 학생들은 F=ma 시험부터 미국물리올림피아드(USAPhO)까지 여러 단계의 국가 선발전을 통과해야 비로소 5명의 국가 대표팀 자리를 놓고 경쟁할 수 있다. 이처럼 전 세계에서 가장 뛰어난 학생들이 모이는 대회에서 AI가 처음으로 만점이라는 성과를 거둔 것이다.

AI 추론 능력의 급격한 진화, 올림피아드가 새 척도로

AI의 추론 능력은 인공지능 연구에서 가장 핵심적인 과제 중 하나다. 대형언어모델(LLM)의 추론 능력을 평가하는 기준도 빠르게 높아지고 있다. 미국수학초청시험(AIME)이나 대학원 수준 질의응답 벤치마크인 GPQA(Graduate-Level Google-Proof Q&A)처럼 한때 어렵다고 여겨지던 시험들은 이미 최신 모델들이 거의 만점에 가까운 점수를 내면서 더 이상 변별력이 없어졌다.

그 다음 단계로 주목받는 것이 바로 올림피아드 수준의 문제들이다. 수학, 화학, 정보올림피아드 등 여러 국제 대회에서 AI는 이미 금메달 수준의 성적을 내고 있지만, 인간 최고 성적에는 아직 못 미치는 상태였다. IPhO 2025에서도 이번 연구 전까지는 AI의 최고 성적이 87.7%에 머물렀다. 황이천 연구자가 개발한 에이전트는 이 한계를 뚫고 사상 최초로 국제 올림피아드에서 만점을 기록했다.

에이전트의 핵심 전략, 병렬 사고와 파이썬 측정

이번에 만점을 달성한 AI 에이전트는 두 가지 핵심 기술을 결합해 설계됐다. 첫째는 병렬 사고(parallel thinking) 방식이다. 에이전트는 각 소문제마다 여러 개의 풀이를 독립적으로 생성한 뒤, 이를 단계적으로 합성하는 방식으로 오류를 걸러낸다. 예를 들어 문제 2에서는 소문제마다 4개의 풀이를 만들고 두 번의 합성 과정을 거쳐 최종 답을 도출했다. 두 해법이 서로 충돌할 때 어느 쪽이 틀렸는지 판단하는 것이, 한 해법이 맞는지 혼자 검토하는 것보다 훨씬 쉽기 때문이다.

둘째는 파이썬(Python) 코드를 활용한 그래프 수치 측정 기능이다. IPhO 문제에는 그래프나 도표에서 수치를 직접 읽어야 하는 경우가 많다. AI가 그래프를 눈으로만 보면 측정 오차가 크지만, 파이썬 컴퓨터 비전 라이브러리를 이용해 픽셀 단위로 수치를 측정하면 훨씬 정확한 값을 얻을 수 있다. 에이전트는 측정이 필요한 경우를 스스로 감지하고, 동일한 수치를 세 번 측정해 중간값(median)을 채택하는 방식으로 측정 오류를 최소화했다.

오류 교정 능력이 만점의 숨은 공신

최종 답안은 모두 만점이었지만, 에이전트가 중간에 생성한 원본 풀이들에는 오류가 있었다. 문제 2의 소문제 C.2와 C.3에서는 20개의 원본 풀이 중 각각 5개에서 부호가 반대로 잘못 계산되는 오류가 발생했다. 힘의 방향이 반대가 되면 물체가 진동하는 대신 중심에서 멀어지는 완전히 다른 물리 현상이 나타나기 때문에 치명적인 실수였다. 연구자는 이를 강화학습(reinforcement learning) 훈련 과정에서 “힘은 대개 변위에 음수를 곱한 값”이라는 패턴을 지나치게 많이 학습한 결과로 추정했다. 그러나 에이전트의 합성 단계에서 부호가 맞는 풀이와 틀린 풀이를 비교하면, 모델은 항상 올바른 부호를 선택했다.

또한 연구 과정에서 IPhO 2025 공식 문제지와 채점 기준에서 세 가지 오류도 발견됐다. 은하 질량 분포 그래프의 물리적 오류, 두 그림 사이의 모순, 공식 해설의 계산 실수가 각각 확인됐다. 이 오류들은 기존에 공개된 다른 AI 연구들에서도 지적된 적이 없던 것으로, AI가 강해질수록 평가 데이터셋의 정확성 검증에 전문가 감수가 필수적임을 보여준다.

만점의 의미와 데이터 오염이라는 그림자

이번 성과에는 중요한 전제 조건이 있다. 제미나이 3.1 프로 프리뷰는 2026년 2월 19일에 공개됐는데, IPhO 2025 이론 시험은 2025년 7월 21일에 치러졌다. 즉 모델이 공개되기 전에 시험이 먼저 있었고, 그 문제와 풀이가 인터넷에 올라온 뒤 모델의 사후 학습(post-training) 데이터에 포함됐을 가능성을 완전히 배제할 수 없다.

연구자는 이 한계를 솔직하게 인정하면서도, 같은 위험은 현재 발표된 거의 모든 AI 벤치마크 평가에 공통적으로 존재한다고 설명했다. 데이터 오염 우려 없이 사람이 직접 채점한 유일한 평가는 IPhO 직후 발표된 피직스 수퍼노바(Physics Supernova) 연구뿐이며, 당시 AI의 최고 성적은 23.5점(30점 만점)이었다. 이번 에이전트의 만점이 진정한 추론 능력의 산물인지, 아니면 학습 데이터의 영향인지를 가리려면 향후 오염 없는 환경에서의 추가 검증이 필요하다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI가 국제물리올림피아드에서 만점을 받은 것이 왜 중요한가요? 국제물리올림피아드(IPhO)는 전 세계 100개국 이상의 최우수 고등학생들이 참여하는 가장 권위 있는 물리 대회입니다. AI가 이 대회에서 처음으로 만점을 기록했다는 것은, AI의 과학적 추론 능력이 인간 최상위 수준에 도달했음을 보여주는 중요한 이정표입니다.

Q. 데이터 오염(data contamination)이란 무엇이고, 왜 문제가 되나요? 데이터 오염이란 AI 모델을 학습시킬 때 평가에 사용할 시험 문제나 정답이 학습 데이터에 포함되는 현상을 말합니다. 이 경우 AI가 문제를 진짜로 ‘이해해서’ 푼 것인지, 아니면 이미 본 내용을 ‘기억해서’ 답한 것인지 구분하기 어려워 성적이 실제 능력보다 부풀려질 수 있습니다.

Q. 이번에 사용된 AI 에이전트는 어떻게 오류를 줄였나요? 이 에이전트는 하나의 문제에 대해 여러 풀이를 동시에 생성한 뒤 단계적으로 비교·합성하는 방식을 사용했습니다. 두 풀이가 충돌할 때 오류를 찾아내기 훨씬 쉽기 때문에, 개별 풀이에서 발생한 실수가 최종 답안에 반영되지 않도록 걸러낼 수 있었습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: Perfect score on IPhO 2025 theory by Gemini agent

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.