구글, 무료 제미나이 2.0 플래시 씽킹 새 버전 공개... 수학·과학 벤치마크서 70% 이상 기록

구글딥마인드(Google DeepMind)의 데미스 하사비스(Demis Hassabis) CEO가 22일(현지 시간)에 자신의 개인 X에 제미나이 2.0 플래시 씽킹(Gemini 2.0 Flash Thinking) 모델의 최신 업데이트 소식을 공개했다.

Our latest update to our Gemini 2.0 Flash Thinking model (available here: https://t.co/Rr9DvqbUdO) scores 73.3% on AIME (math) & 74.2% on GPQA Diamond (science) benchmarks. Thanks for all your feedback, this represents super fast progress from our first release just this past… pic.twitter.com/cM1gNwBoTO
— Demis Hassabis (@demishassabis) January 21, 2025

수학·과학 벤치마크 성능 향상

새로운 버전의 제미나이 2.0 플래시 씽킹은 수학 분야 벤치마크인 AIME에서 73.3%, 과학 분야 벤치마크인 GPQA 다이아몬드(GPQA Diamond)에서 74.2%의 점수를 기록했다. 이는 지난 2024년 12월 첫 출시 이후 빠른 발전을 보여주는 결과다.

최신 버전에는 코드 실행 기능이 추가됐으며, 콘텐츠 처리 용량이 100만 토큰으로 확대됐다. 또한 사고 과정과 답변 사이의 모순이 발생할 가능성을 줄였다.

알파고부터 이어온 기술력

하사비스 CEO는 “알파고(AlphaGo)와 같은 프로그램부터 시작해 10년 이상 이러한 계획 시스템을 개척해왔다”며 “이러한 아이디어들이 현재 가장 강력한 기초 모델과 결합되는 것을 보는 것이 흥미롭다”고 밝혔다.

개발자들은 새로운 버전의 API 통합 시 응답이 이전과 달리 parts[1]이 아닌 parts[0]에서 확인할 수 있다. 사고/추론 과정은 더 이상 표시되지 않는 것으로 알려졌다.

제미나이 2.0 플래시 씽킹에 대한 자세한 사항은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.