o1-프리뷰, 97점으로 수능 국어 1등급 달성… 한국어 언어모델 성능 평가 리더보드 공개

인공지능 대형언어모델의 한국어 능력을 평가하는 ‘수능 국어 LLM 리더보드’가 공개됐다. 평가 결과 ‘o1-프리뷰’ 모델이 97점으로 1등급을 기록하며 주목받고 있다.

이번 리더보드는 한국교육과정평가원(KICE)이 개발한 최근 10년간(2015~2024년)의 수능 국어 시험문제를 활용해 AI 모델의 성능을 평가했다. 특히 2022년부터 시행된 선택과목의 경우 ‘화법과 작문’ 과목을 기준으로 평가를 진행했다. 평가 영역은 독서, 문학, 화법과 작문으로 구성되어 언어 이해력을 종합적으로 측정했다.

최신 평가에서 ‘o1-프리뷰’ 모델이 97점으로 1등급(상위 4%)을 달성했다. ‘o1-미니’는 78점으로 4등급, ‘gpt-4o’는 75점으로 4등급을 기록했다. ‘gpt-3.5-turbo’는 16점으로 8등급에 그쳤다.

10개년 수능 시험 전체를 대상으로 한 평가에서는 ‘gpt-4o-2024-08-06’ 모델이 평균 표준점수 114.9점(평균 3.6등급)으로 1위를 차지했다. 메타(Meta)의 ‘Meta-Llama-3.1-405B-Instruct-Turbo’가 113.8점(평균 3.8등급)으로 2위, 첸(Qwen)의 ‘Qwen2.5-72B-Instruct-Turbo’가 105.8점(평균 4.6등급)으로 3위를 기록했다.

프로젝트 연구팀은 이번 평가의 목적을 “인간 성능과 AI 성능을 비교할 수 있는 벤치마크 정보 공유”와 “특정 기업에 종속되지 않은 오픈소스 AI의 수능 1등급 달성”이라고 밝혔다. 저작권 보호를 위해 평가에 사용된 수능 벤치마크 데이터셋은 비공개로 운영된다.

리더보드에 대한 자세한 내용은 깃허브에서 확인할 수 있다.