Search

AI 코딩 능력 과대포장 논란… 실제 코딩 시험 봤더니 1등이 겨우 정답률 7.5%

AI 코딩 능력 과대포장 논란… 실제 코딩 시험 봤더니 1등이 겨우 정답률 7.5%
이미지 출처: 이디오그램 생성

AI가 얼마나 잘 프로그래밍을 할 수 있는지 알아보는 새로운 시험에서 1등을 한 AI도 100점 만점에 7.5점밖에 받지 못해 충격을 주고 있다. 테크크런치가 23일(현지 시간) 보도한 내용에 따르면, 라우드 연구소는 23일 ‘K 프라이즈’라는 AI 코딩 대회의 첫 번째 우승자를 발표했다. 이 대회는 유명한 IT 회사 데이터브릭스와 퍼플렉시티를 공동창업한 앤디 콘윈스키가 만들었다. 우승자는 브라질의 AI 전문가 에두아르도 로샤 드 안드라드로, 5만 달러(약 6,900만원) 상금을 받는다.

놀라운 점은 우승자의 성적이다. 안드라드는 시험 문제 중 단 7.5%만 맞혀 우승했다. 이는 AI 기술이 실제로는 생각만큼 뛰어나지 않다는 것을 보여주는 결과다. 콘윈스키는 “정말 어려운 시험을 만들어서 기쁘다”며 “시험이 의미를 가지려면 어려워야 한다”고 말했다. 그는 구글이나 오픈AI 같은 큰 회사들이 최고 성능의 AI로 참가했다면 점수가 더 높았을 수도 있지만, 이 시험은 일부러 제한된 컴퓨터 성능으로 진행해 작은 AI 모델들도 공정하게 경쟁할 수 있게 했다고 설명했다. 콘윈스키는 이 시험에서 90% 이상을 맞히는 AI에게는 100만 달러(약 14억 원)를 주겠다고 약속했다.

K 프라이즈는 깃허브라는 프로그래머들이 사용하는 웹사이트에서 실제로 발생한 문제들을 AI에게 해결하도록 시키는 방식이다. 기존의 ‘SWE-벤치’라는 비슷한 시험과 달리, K 프라이즈는 AI가 미리 정답을 외울 수 없도록 완전히 새로운 문제들만 사용했다. 3월 12일까지 AI 모델 신청을 받은 뒤, 그 이후에 나온 문제들로만 시험을 만들었다.

7.5%라는 점수는 기존 SWE-벤치 시험 결과와 큰 차이를 보인다. SWE-벤치에서는 쉬운 버전에서 75%, 어려운 버전에서도 34%를 맞혔기 때문이다. 콘윈스키는 이런 차이가 기존 시험에서 AI가 미리 답을 외웠기 때문인지, 아니면 새로운 문제를 만드는 것이 어려워서인지 확실하지 않다고 말했다.

이미 다양한 AI 코딩 도구들이 나와 있는 상황에서 이런 결과는 의외로 보일 수 있다. 하지만 기존 시험들이 너무 쉬워져서 AI의 실제 능력을 제대로 평가하지 못한다는 지적이 많았다. 프린스턴 대학교 연구원 사야시 카푸어는 “기존 시험을 위한 새로운 테스트를 만드는 것이 필요하다”며 “그런 실험 없이는 AI가 정말 실력이 늘었는지, 아니면 단순히 답을 외운 것인지 알 수 없다”고 말했다.

콘윈스키는 이번 결과가 단순히 더 나은 시험이 아니라 업계 전체에 대한 경고라고 봤다. 그는 “과대광고를 들어보면 AI 의사, AI 변호사, AI 프로그래머가 나올 것 같지만 사실이 아니다”라며 “새로운 문제에서 10%도 못 맞는다면, 이게 현실”이라고 강조했다.

이번 결과는 AI 기술이 실제로는 아직 많이 부족하다는 것을 보여준다. 특히 프로그래밍 분야에서 AI의 한계가 분명히 드러나면서, 업계는 과대광고보다는 현실적인 평가와 개발이 필요하다는 목소리가 커지고 있다.

해당 기사의 원문은 테크크런치에서 확인 가능하다.

이미지 출처: 이디오그램 생성




AI 코딩 능력 과대포장 논란… 실제 코딩 시험 봤더니 1등이 겨우 정답률 7.5% – AI 매터스 l AI Matters