구글 딥마인드가 제미나이 딥 씽크(Gemini Deep Think)를 활용해 전문 수준의 수학과 과학 연구 문제를 해결하는 데 성공했다. 2025년 여름 국제수학올림피아드(IMO)에서 금메달 수준의 성과를 거둔 이후, 이 AI 모델은 이제 실제 연구 현장에서 인간 전문가들과 협력하며 수십 년간 풀리지 않던 난제들을 해결하고 있다. 구글은 지난주 두 편의 논문을 통해 수학자, 물리학자, 컴퓨터 과학자들이 제미나이 딥 씽크와 협력해 이뤄낸 성과를 상세히 공개했다.
올림피아드를 넘어 박사급 수학 문제까지 해결
제미나이 딥 씽크는 학생들을 위한 수학 문제를 넘어 전문 연구자들도 골머리를 앓는 난제들을 해결하기 시작했다. 올림피아드 문제와 달리 연구 수준의 수학은 방대한 문헌에서 고급 기법을 찾아 적용해야 하는데, 기존 AI 모델들은 데이터 부족으로 피상적인 이해에 그치거나 잘못된 답을 내놓는 경우가 많았다.
이를 해결하기 위해 구글은 ‘Aletheia’라는 수학 연구 에이전트를 개발했다. 이 시스템은 제미나이 딥 씽크를 기반으로 후보 솔루션의 결함을 찾아내는 자연어 검증기를 갖추고 있으며, 반복적으로 답을 생성하고 수정하는 과정을 거친다. 특히 문제를 풀 수 없다는 사실을 스스로 인정할 수 있어 연구자들의 시간을 절약해준다. 또한 구글 검색과 웹 브라우징 기능을 활용해 복잡한 연구를 탐색하며, 잘못된 인용이나 계산 오류를 방지한다.
2025년 7월 금메달 수준 달성 이후 제미나이 딥 씽크는 빠르게 발전했다. 올림피아드 수준의 IMO-ProofBench 고급 테스트에서 최대 90%의 점수를 기록했으며, 박사 수준 문제를 다루는 내부 벤치마크인 ‘FutureMath Basic’에서도 지속적인 성능 향상을 보였다. 주목할 점은 Aletheia가 더 적은 계산 능력으로도 더 높은 추론 품질을 달성했다는 것이다.

인간 개입 없이 논문 작성, 4개 미해결 문제 자율 해결
Aletheia는 이미 여러 수준의 자율 연구를 통해 실질적인 성과를 냈다. 가장 놀라운 사례는 인간의 개입 없이 AI가 독자적으로 작성한 연구 논문으로, 산술 기하학에서 고유가중치(eigenweights)라는 특정 구조 상수를 계산하는 내용을 담았다.
또한 인간과 AI가 협력해 상호작용하는 입자 시스템의 경계를 증명하는 논문도 발표했다. 가장 인상적인 성과는 블룸의 에르되시 추측 데이터베이스(Bloom’s Erdős Conjectures database)에 있는 700개 미해결 문제를 대규모로 평가한 것인데, 이 과정에서 4개의 미해결 질문을 자율적으로 해결했다. 특히 에르되시-1051 문제의 경우 AI가 자율적으로 해결했을 뿐만 아니라 일반화된 형태로 발전시켜 새로운 연구 논문으로 이어졌다.
구글은 수학 커뮤니티와의 광범위한 논의를 거쳐 AI 지원 수학 연구를 중요도와 AI 기여도에 따라 분류하는 체계를 제안했다. 현재 ‘출판 가치가 있는’ 수준인 레벨 2에 해당하는 여러 논문이 학술지에 제출된 상태지만, 아직 ‘주요 발전’ 또는 ‘획기적 돌파’에 해당하는 레벨 3, 4의 결과는 주장하지 않고 있다.
10년간 풀리지 않던 추측 반증, 물리학 적분 문제도 해결
제미나이 딥 씽크는 컴퓨터 과학과 물리학에서도 성과를 냈다. 두 번째 논문은 효과적인 협업 방법을 찾아냈는데, 특히 ‘어드바이저(Advisor)’ 모델이 주목받는다. 이는 인간이 AI를 반복적인 ‘바이브 증명(Vibe-Proving)’ 사이클을 통해 안내하면서 직관을 검증하고 증명을 다듬는 방식이다. 증명과 반박을 동시에 요청해 확증 편향을 방지하는 ‘균형 프롬프팅’과 코드 지원 검증 같은 전술적 기법도 소개됐다.
18개 연구 문제에 대한 전문가 협업에서 제미나이 딥 씽크는 알고리즘, 기계학습, 조합 최적화, 정보 이론, 경제학 분야의 오랜 난제들을 해결했다. 네트워크를 효율적으로 분할하는 ‘맥스-컷(Max-Cut)’ 문제와 고차원 점들을 연결하는 ‘Steiner Tree’ 문제는 수년간 진전이 없었는데, 제미나이가 전혀 관련 없어 보이는 연속 수학 분야의 키르슈브라운 정리(Kirszbraun Theorem), 측도 이론(measure theory), 스톤-바이어슈트라스 정리(Stone-Weierstrass theorem) 같은 고급 도구를 끌어와 해결했다.
2015년 제기된 온라인 부분모듈 최적화(online submodular optimization) 분야의 추측도 10년 만에 반증됐다. 데이터 스트림에서 도착한 항목의 복사본이 원본을 이동하는 것보다 항상 가치가 낮다는 명제가 당연해 보였지만 전문가들이 증명하지 못했는데, 제미나이가 세 항목으로 구성된 매우 구체적인 조합론적 반례를 만들어 오랜 인간의 직관이 틀렸음을 엄밀하게 증명했다.
물리학에서는 우주 끈(cosmic strings)의 중력 복사 계산에 필요한 복잡한 적분 문제를 해결했다. 특이점을 포함한 까다로운 적분의 해석적 해를 찾아야 했는데, 제미나이가 게겐바우어 다항식(Gegenbauer polynomials)을 활용한 새로운 해법을 찾아냈다. 이 방법은 특이점을 자연스럽게 흡수해 무한 급수를 유한합의 닫힌 형태로 만들었다.
과학 연구 워크플로의 근본적 변화 시작
이번 연구는 일반 목적의 파운데이션 모델이 에이전트 추론 워크플로와 결합되면 강력한 과학 협력자가 될 수 있음을 보여준다. 전문 수학자, 물리학자, 컴퓨터 과학자의 지도 아래 제미나이 딥 씽크는 복잡한 수학, 논리, 추론이 핵심인 분야에서 효용을 입증하고 있다.
과학 연구 워크플로에 근본적인 변화가 일어나고 있다. 제미나이가 진화하면서 인간 지성의 ‘힘 배가 장치(force multiplier)’ 역할을 하고 있다. 지식 검색과 엄격한 검증을 AI가 처리하면서 과학자들은 개념적 깊이와 창의적 방향에 집중할 수 있게 됐다. 증명을 다듬고, 반례를 찾고, 단절된 분야들을 연결하는 과정에서 AI는 과학 발전의 새로운 장에서 가치 있는 협력자로 자리잡고 있다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 제미나이 딥 씽크가 수학 올림피아드 금메달 수준을 넘어설 수 있었던 핵심 기술은 무엇인가요?
A. Aletheia라는 수학 연구 에이전트 시스템이 핵심입니다. 이 시스템은 후보 답안의 오류를 찾는 검증기를 갖추고 있으며, 답을 반복적으로 생성하고 수정합니다. 또한 구글 검색과 웹 브라우징을 활용해 방대한 수학 문헌을 탐색하며, 문제를 풀 수 없다는 사실을 스스로 인정할 수 있어 연구자의 시간을 절약해줍니다.
Q2. AI가 독자적으로 작성한 수학 논문은 얼마나 신뢰할 수 있나요?
A. 구글은 AI 지원 수학 연구를 중요도와 AI 기여도에 따라 레벨 0부터 4까지 분류하는 체계를 제안했습니다. 현재 ‘출판 가치가 있는’ 레벨 2 수준의 논문들이 학술지에 제출됐으며, 아직 획기적 돌파에 해당하는 레벨 3, 4는 주장하지 않고 있습니다. 모든 결과는 전문가의 검증을 거칩니다.
Q3. 제미나이 딥 씽크는 어떤 방식으로 10년간 풀리지 않던 수학 추측을 반증했나요?
A. 2015년 제기된 온라인 부분모듈 최적화 분야의 추측에 대해 제미나이는 세 항목으로 구성된 매우 구체적인 조합론적 반례를 만들어냈습니다. 데이터 스트림에서 항목의 복사본이 항상 원본 이동보다 가치가 낮다는 명제가 틀렸음을 엄밀하게 증명했으며, 이는 전문가들이 10년간 시도했지만 실패한 과제였습니다.
기사에 인용된 리포트 원문은 구글딥마인드에서 확인 가능하다.
리포트명: Accelerating Mathematical and Scientific Discovery with Gemini Deep Think
이미지 출처: 구글 딥마인드
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






