오픈AI(OpenAI)의 최신 대형언어모델(LLM)인 GPT-5.1이 2026학년도 대학수학능력시험에서 450점 만점 중 433점을 획득하며 압도적인 성적을 기록했다. 순천향대학교 컴퓨터소프트웨어공학과 구유겸 학생은 수능 당일 공개된 GPT-5.1을 포함해 오픈AI, 구글(Google), 앤트로픽(Anthropic), xAI, 딥시크(DeepSeek)의 최신 LLM 15종을 대상으로 실제 수능 문제를 풀게 한 실험 결과를 깃허브(GitHub)에 공개했다.
실험은 국어, 수학, 영어, 한국사에 물리Ⅰ과 화학Ⅰ까지 포함해 총 450점 만점 기준으로 진행됐다. 각 모델에는 문제의 전체 텍스트가 주어졌으며, 선택형 문항은 보기 중 하나를 고르게 하고 단답형은 정확한 숫자 입력을 요구하는 방식으로 실제 수험 환경을 구현했다.
GPT-5.1은 국어에서 98점, 수학 만점, 영어 만점을 기록하며 전 과목에서 고른 강세를 보였다. 특히 수학 영역에서는 앤트로픽의 클로드 소넷 4.5(Claude Sonnet 4.5)와 함께 만점을 받으며 뛰어난 연산 능력을 입증했다.
구글의 제미나이 2.5 프로(Gemini 2.5 Pro)는 417.7점으로 3위를 차지했다. 국어에서 99점으로 최고 성적을 기록했고, 화학Ⅰ에서도 47점을 받으며 우수한 성능을 보였다. GPT-5.1 코덱스(Codex)는 421점으로 2위에 올랐다.
반면 구형 모델인 GPT-4o는 291.8점으로 최하위권에 머물렀다. 특히 수학에서 56.3점, 화학Ⅰ에서 11점을 받으며 최신 대형 모델과 큰 격차를 보였다.
한국사 영역에서는 다수의 모델이 만점을 기록한 반면, 물리Ⅰ에서는 GPT-5.1도 38점에 그쳤다. 이는 LLM이 지식 기반 암기 영역에서는 강점을 보이지만, 복잡한 추론을 요구하는 문제 해결에는 여전히 한계가 있음을 보여준다.
해당 기사에 인용한 AI 수능 문제 풀이 결과는 깃허브에서 확인 가능하다.
이미지 출처: 순천향대학교 컴퓨터소프트웨어공학과 구유겸 학생






