Search

스탠퍼드 AI 인덱스 2026 (1) AI는 1년 만에 코딩 시험을 만점 받았지만 아날로그 시계는 못 읽는다

AI Matters Thumbnail_2026 AI Index Report (1)
이미지 출처: 이디오그램 생성

AI가 국제 수학 올림피아드에서 금메달을 따는 동안, 똑같은 AI가 아날로그 시계 앞에서 멈칫한다. 최고 성능 모델의 시계 읽기 정확도는 50.60%로, 동전을 던지는 것과 다를 바 없다. 스탠퍼드 HAI가 2026년 4월 발표한 ‘AI 인덱스 리포트 2026’은 AI 능력의 가속이 모든 영역에서 균일하지 않다는 사실을 400페이지의 데이터로 증명한다. 소프트웨어 엔지니어링 벤치마크 SWE-bench에서 단 1년 만에 60%에서 100%에 가깝게 치솟은 AI가, 왜 유치원생도 읽는 시계 앞에서 실패하는지 그 답이 이번 기사의 핵심이다.

그림 2.1.1. AI 벤치마크별 성능 vs. 인간 기준선 추이 (2012~2025)
그림 2.1.1. AI 벤치마크별 성능 vs. 인간 기준선 추이 (2012~2025)


AI 능력 가속의 실체, 1년 만에 60%에서 100%로

스탠퍼드 AI 인덱스 2026에 따르면 2025년 한 해 동안 출시된 주목할 만한 프론티어 모델(Frontier Model, 현존 최고 수준의 AI 모델)의 90% 이상이 민간 기업에서 나왔다. 대학이나 정부 연구소가 아니라 기업이 이제 AI 발전의 엔진임을 데이터로 확인한 것이다.

성능 향상 속도는 한 가지 수치로 요약된다. 소프트웨어 엔지니어링 벤치마크(Benchmark, 성능 측정 기준 시험)인 SWE-벤치 베리파이드(SWE-bench Verified)에서 AI의 점수는 2024년 약 60%에서 2025년 거의 100%로 단 1년 만에 도달했다. 이 벤치마크는 실제 깃허브(GitHub)에 올라온 소프트웨어 버그를 AI가 스스로 수정할 수 있는지 측정한다. 1년 전만 해도 열 문제 중 여섯 개를 풀던 AI가 이제는 거의 모두 푸는 수준이 됐다는 뜻이다.

에이전트(Agent, 사람의 지시 없이 스스로 작업을 수행하는 AI) 분야의 성장은 더욱 가파르다. 실제 컴퓨터 운영 환경에서 자율 작업 능력을 측정하는 오에스월드(OSWorld) 벤치마크에서 AI 에이전트의 성공률은 12%에서 약 66%로 뛰어올랐다. 터미널-벤치(Terminal-Bench)에서 AI 에이전트의 실제 환경 작업 성공률은 2025년 20%에서 2026년 77.3%로 증가했다.

AI 인덱스 리포트 2026에 따르면 사이버 보안 문제를 해결하는 에이전트의 성공률은 2024년 15%에서 2026년 93%로 치솟았다. 불과 1~2년 사이에 AI가 처음부터 끝까지 혼자 해낼 수 있는 일의 범위가 급격히 넓어지고 있다.


그림 2.1.2. 클로즈드 vs. 오픈 모델 Arena 점수 추이 (2023.05~2026.01)
그림 2.1.2. 클로즈드 vs. 오픈 모델 Arena 점수 추이 (2023.05~2026.01)


박사 시험도, 수학 올림피아드 금메달도 통과한 AI

‘인류 최후의 시험(Humanity’s Last Exam)’이라는 이름의 벤치마크가 있다. 각 분야 전문가들이 출제한 가장 어려운 문제들로 구성된 이 시험에서 2025년 당시 최고 모델인 오픈AI(OpenAI)의 o1은 8.8%를 맞혔다.

리포트 집계 기준으로 최고 점수는 38.3%였으며, 2026년 4월 현재 앤트로픽(Anthropic)의 클로드 오퍼스 4.6(Claude Opus 4.6) 등 일부 모델은 50%를 넘어섰다. 1년 만에 정답률이 네 배 이상으로 늘었다.

수학 분야에서는 더 극적인 장면이 나왔다. 구글 딥마인드(Google DeepMind)의 제미나이 딥 씽크(Gemini Deep Think)는 국제 수학 올림피아드(IMO, International Mathematical Olympiad)에서 금메달을 획득했다.

IMO는 전 세계 고등학생 수학 영재들이 출전하는 대회다. 인류 최상위 수준의 수학 실력을 AI가 처음으로 공식 입증한 사건이었다.


그림 2.4.8. CLockBench - 주요 AI 모델들의 아날로그 시계 읽기 정확도를 인간 기준선(90.70%)과 비교한 막대 그래프
그림 2.4.8. CLockBench – 주요 AI 모델들의 아날로그 시계 읽기 정확도를 인간 기준선(90.70%)과 비교한 막대 그래프


들쭉날쭉한 지능의 경계, 시계를 못 읽는 천재

그런데 같은 AI에게 아날로그 시계 사진을 보여주고 몇 시인지 물어보면 어떻게 될까. 클록벤치(ClockBench) 벤치마크에서 현재 최고 성능 모델은 아날로그 시계를 정확히 읽는 데 약 50.1%의 성공률을 보인다. 동전을 던져서 앞면이 나올 확률과 거의 같다. 비교하자면 일반인의 시계 읽기 성공률은 약 90%다.

이것이 바로 연구자들이 말하는 들쭉날쭉한 지능의 경계(Jagged Frontier)다. 최첨단 AI는 박사 수준의 추론 문제는 풀면서 유치원생이 할 수 있는 시계 읽기에서 실패한다. 집안일을 하는 로봇은 빨래 접기나 설거지 같은 실제 가사 작업에서 12%만 성공한다. AI는 대규모 텍스트와 이미지를 처리하며 학습하지, 물리적 세계를 직접 경험하며 배우지 않기 때문에 생기는 현상이다.

이 역설은 AI를 도입하려는 기업과 개인 모두에게 실용적인 함의를 준다. AI가 잘하는 영역과 못하는 영역 사이의 경계는 직관적이지 않다. 복잡한 코딩 작업은 잘 해내지만, 맥락을 파악해야 하는 판단 업무에서는 성과가 약하거나 오히려 부정적인 결과가 나오기도 한다.

생성형 AI 확산 속도, PC와 인터넷을 앞질렀다

기술 성능만 빠른 것이 아니다. 생성형 AI(Generative AI)는 출시 3년 만에 전 세계 인구의 53%가 사용하는 수준에 도달했다. 개인용 컴퓨터(PC)와 인터넷이 같은 보급률에 도달하는 데 걸린 시간보다 빠르다. 기업 채택률은 더욱 높다. 기술 업계에서는 88%의 기업이 AI를 업무에 활용하고 있다고 밝혔다.

조직 전체가 AI를 쓰고, 대학생 5명 중 4명이 학업에 AI를 쓴다. 하지만 국가별로 격차는 뚜렷하다. 싱가포르(61%), 아랍에미리트(UAE, 54%)처럼 기대 이상의 채택률을 보이는 나라가 있는 반면, 미국은 28.3%로 전 세계 24위에 머물렀다. GDP(국내총생산)가 높을수록 생성형 AI 채택률도 높은 경향이 있지만, 미국은 이 기준에서도 예상보다 낮은 순위다.

AI가 얼마나 가치를 만들어내고 있는지에 대한 추정치도 이번 리포트에서 처음 제시됐다. 2026년 초 기준으로 미국 소비자들이 생성형 AI 도구로부터 얻는 가치는 연간 1,720억 달러(약 240조 원)에 이른다. 사용자 1인당 중간 가치는 2025년에서 2026년 사이 세 배로 증가했다. 이 수치는 많은 사용자들이 무료로 또는 낮은 비용으로 AI 도구를 쓰고 있음에도 이미 막대한 가치가 발생하고 있음을 뜻한다.

그림 4.3.2. 전세계 지역별 조직의 AI 도입 현황, (2023~2025)
그림 4.3.2. 전세계 지역별 조직의 AI 도입 현황, (2023~2025)


가속이 멈추지 않는다는 것이 의미하는 것

이번 리포트에서 스탠퍼드 AI 인덱스 공동 위원장인 레이 페로(Ray Perrault)는 “벤치마크 점수가 반드시 실제 현장 성과로 이어지는 것은 아니다”라고 직접 언급했다. 법률 추론 벤치마크에서 75%의 정확도를 기록한다고 해서 그 AI가 실제 로펌에서 바로 활용 가능한지는 별개의 문제라는 뜻이다.

그럼에도 “AI 발전이 어느 지점에서 정체될 것”이라는 예측은 계속해서 틀려왔다. 스탠퍼드 HAI의 한 연구원은 리포트 공개와 함께 “AI가 계속 개선되고 있다는 사실에 정말 놀랍다. 어느 방향으로도 정체 조짐이 없다”고 말했다. 1년 단위로 성능이 수배씩 뛰는 기술이 몇 년 후 어디에 닿아 있을지는 전문가들도 단정하지 않는다. 지금 확실한 것은 하나다. 이 속도는 아직 멈추지 않았다.

편집자주
스탠퍼드 대학교 인간중심AI연구소(HAI)가 매년 발행하는 「AI 인덱스 리포트(AI Index Report)」는 AI 기술 성능부터 경제·노동·교육·정책·여론까지 400페이지 이상의 데이터로 AI의 현재를 기록하는 연간 보고서다. 2026년판은 9번째 에디션으로, 단일 기사로 소화하기에는 챕터별 인사이트가 너무 방대하고 독자층도 다르다. 기술 성능에 관심 있는 개발자와 고용 충격이 궁금한 취업 준비생이 같은 기사를 읽을 필요는 없다. AI 매터스는 이 리포트를 챕터별로 나눠 총 6편의 시리즈로 연재한다. ① 기술 성능 ② 경제·노동 ③ 책임 AI ④ 연구개발·인프라 ⑤ 과학·의학 ⑥ 교육·여론·정책 순으로 발행하며, 각 편은 독립적으로 읽을 수 있다.


FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. AI 벤치마크란 무엇이고, 왜 중요한가요?
벤치마크는 AI의 능력을 객관적으로 측정하는 표준화된 시험입니다. 코딩, 추론, 수학 등 영역별 시험 점수로 서로 다른 AI 모델의 성능을 비교할 수 있게 해줍니다. 기업이 어떤 AI를 도입할지 결정하거나, 연구자가 발전 방향을 정할 때 기준이 됩니다.

Q. AI가 수학 올림피아드 금메달을 딴 게 실생활에 어떤 의미인가요?
AI가 인류 최상위 수준의 수학 문제를 스스로 풀 수 있다는 뜻입니다. 이는 단순 계산을 넘어 복잡한 논리적 추론이 가능해졌다는 신호로, 과학 연구, 공학 설계, 의약품 개발 등에서 AI가 전문가 수준의 보조 역할을 할 수 있는 기반이 마련됐음을 의미합니다.

Q. AI가 시계도 못 읽는다면 실제로 쓸 수 있는 건가요?
들쭉날쭉한 지능의 경계(Jagged Frontier) 현상 때문에 AI는 어려운 일은 잘 하고 쉬운 일에서 실패하기도 합니다. 아날로그 시계 읽기처럼 시각 정보를 물리적으로 해석하는 작업보다, 텍스트 기반의 추론·분석·코딩 작업에서 훨씬 뛰어난 성능을 보입니다. AI가 잘하는 영역을 파악하고 그에 맞게 활용하는 것이 핵심입니다.

기사에 인용된 리포트 원문은 Stanford HAI에서 확인할 수 있다.

리포트명: 2026 AI Index Report

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

함샤우트 글로벌_우리는 광고비 없이 AI로 팝니다 이벤트 안내 기사 배너