의사 시험 붙은 GPT, 수능 지구과학 앞에서 멘붕...

챗GPT(ChatGPT)가 의사 시험과 변호사 시험을 통과했다는 소식이 나온 지 꽤 됐다. 그렇다면 한국 수능은 어떨까? 국립대만사범대학교(National Taiwan Normal University)와 서울대학교(Seoul National University) 공동 연구팀이 GPT-4o, 제미나이-2.5-플래시(Gemini 2.5 Flash), 제미나이-2.5-프로(Gemini 2.5 Pro) 세 모델에게 2025학년도 수능 지구과학I 문제를 풀게 했다. 최선의 조건에서 제미나이-2.5-프로는 상위권 수험생에 근접하는 성적을 냈지만, 나머지 두 모델은 랜덤으로 찍는 수준을 벗어나지 못했다. 연구팀이 주목한 건 점수 자체보다 ‘왜 틀렸는가’였다. AI는 특정 유형의 문제에서 반복적이고 체계적인 방식으로 실패했고, 그 패턴은 사람이 틀리는 방식과 뚜렷하게 달랐다.

문제지를 통째로 주면 찍는 것보다 못한 성적

연구팀은 같은 AI에게 세 가지 방식으로 문제를 줬다. 첫 번째는 시험지 전체 페이지를 이미지 파일로 그대로 넘겨주는 방식이었다. 결과는 예상보다 낮았다. 제미나이-2.5-플래시는 50점 만점에 4점(8%), GPT-4o는 7점(14%)을 받았다. 5지선다에서 랜덤으로 찍으면 기댓값이 10점(20%)인데, 두 모델 모두 그보다 낮았다. 제미나이-2.5-프로는 14점(28%)으로 그나마 높았지만 이 역시 낮은 수준이다.

문자 인식 단계에서부터 오류가 쌓였다. GPT-4o는 은하 스펙트럼 문제를 운석 스펙트럼 문제로 잘못 읽었고, 제미나이-2.5-플래시는 암석의 용융 곡선 문제를 ‘암염 용융 곡선’ 문제로 완전히 다르게 인식했다. 문제는 이 모델들이 잘못 인식한 문제를 바탕으로 그럴듯한 해설까지 자신 있게 내놨다는 점이다. “암염은 온도가 올라가면 녹을 수 있다”는 설명은 과학적으로 맞는 말이지만, 출제된 문제와는 전혀 상관없는 내용이었다.

문제를 따로 줘도 드러나는 모델별 한계

두 번째 실험에서 연구팀은 20개 문항을 각각 별도 이미지 파일로 잘라서 줬다. 이렇게 하면 여러 문제가 섞인 복잡한 지면을 AI가 스스로 분석하는 부담이 사라진다. 제미나이-2.5-프로는 14점에서 28점(56%)으로 크게 올랐다. 반면 제미나이-2.5-플래시는 4점에서 9점(18%), GPT-4o는 7점에서 8점(16%)으로 거의 변화가 없었다.

이 차이가 중요한 단서를 준다. 제미나이-2.5-프로의 점수가 많이 오른 건, 이 모델의 첫 번째 실험 실패 원인이 추론 능력 부족이 아니라 복잡한 문서 레이아웃 분석 실패였기 때문이다. 문제를 제대로 읽게 해줬더니 숨어 있던 추론 능력이 발휘된 것이다. 반면 나머지 두 모델은 입력 방식을 바꿔줘도 성적이 거의 오르지 않았다. 이 모델들의 한계가 단순한 문서 구조 문제가 아니라 시각 정보 해석과 추론 과정 전반에 있다는 점을 보여준다.

이상적인 조건에서도 AI는 도식의 의미를 읽어내지 못했다

세 번째 실험에서 연구팀은 텍스트는 직접 입력하고 그래프와 도표만 이미지로 제공했다. 문자 인식 오류 가능성을 원천 차단한 이상적인 조건이다. 제미나이-2.5-프로는 34점(68%)으로 상위권 수험생 수준에 근접했다. 그러나 제미나이-2.5-플래시는 10점(20%), GPT-4o는 11점(22%)으로 랜덤 선택 기댓값과 비슷한 수준에 머물렀다.

이 조건에서 발생한 36개의 오답을 분석한 결과, 가장 많이 나온 오류 유형은 ‘지각 오류(Perception Errors)’로 전체의 43%를 차지했다. AI가 그래프의 수치를 잘못 읽거나, 도식에 담긴 상징적 의미를 제대로 해석하지 못하는 문제가 가장 많았다. 논문은 이를 단순한 시각 오류가 아니라, 인식한 정보를 과학 개념으로 연결하는 인지 과정의 단절로 설명한다. 추론 오류(25%), 환각으로 분류되는 지식 생성 오류(17%), 개념 오류(15%)가 그 뒤를 이었다.

AI가 반복적으로 실패하는 세 가지 문제 유형

연구팀이 특히 주목한 건 AI 고유의 반복적 실수 패턴이었다. 첫 번째는 ‘지각-인지 단절(Perception-Cognition Gap)’이다. AI가 시각 정보를 인식은 하지만 그 안에 담긴 과학적 규칙으로 연결하지 못하는 현상이다. 태풍의 풍향 변화를 나타내는 방사형 그래프에서 AI는 그림 자체는 봤지만, 시계 방향과 반시계 방향의 과학적 의미를 읽어내지 못했다. 세 모델 모두 이 문제를 틀렸다.

두 번째는 ‘계산-개념 불일치(Calculation-Conceptualization Discrepancy)’다. GPT-4o는 20번 문항에서 λmax(B)/λmax(C)=0.5라는 계산은 정확하게 해냈다. 그런데 이 값이 “C의 최대 파장이 B의 두 배”라는 개념적 의미로 연결되지 않아 틀렸다. 절차적 계산은 수행하지만 그 결과의 의미를 적용하지 못하는 것이다.

세 번째는 ‘과정 환각(Process Hallucination)’이다. AI가 복잡한 추론 과정을 건너뛰고 관련 있어 보이는 배경 지식을 가져다 붙이는 현상이다. 3번 문항에서 두 모델은 P-T 다이어그램을 실제로 확인하는 과정을 생략하고 “맨틀이 상승하면 감압 용융이 일어난다”는 배경 지식을 바로 적용해 틀렸다. 데이터 검증 없이 그럴듯한 결론으로 직행한 것이다.

FAQ ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.

Q. AI가 수능을 못 푸는 건 한국어를 잘 못해서인가요?

A. 연구팀은 문제를 영어로 번역해 제공하는 등 언어 장벽을 최소화했습니다. AI가 특정 문제에서 어려움을 보이는 핵심 원인은 언어가 아니라, 그래프와 도식에 담긴 과학적 규칙을 해석하는 시각 인지 능력의 한계에 있었습니다.

Q. 제미나이-2.5-프로가 68점을 받았다면 AI가 수능을 어느 정도 풀 수 있다는 건가요?

A. 논문은 제미나이-2.5-프로의 68점이 상위권 수험생 수준에 근접한다고 평가했습니다. 다만 이는 텍스트를 미리 직접 입력해주는 이상적인 조건에서 나온 결과입니다. 실제 시험지를 그대로 입력했을 때 같은 모델의 점수는 28점에 그쳤습니다.

Q. 이번 연구가 교육 현장에 주는 시사점은 무엇인가요?

A. 연구팀은 AI가 반복적으로 어려움을 보이는 문제 유형을 역으로 활용해 ‘AI 내성 문항’을 설계할 수 있다고 제안했습니다. 단순 x-y 그래프가 아닌 비정형 도식의 규칙을 해석해야 하는 문항, 계산 결과의 개념적 의미를 다시 적용해야 하는 문항 등은 학생의 실제 이해도를 측정하는 동시에 AI 활용을 어렵게 만드는 효과적인 설계 방향으로 제시됐습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: ChatGPT and Gemini participated in the Korean College Scholastic Ability Test – Earth Science I

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.