Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries
최근 구글 딥마인드 연구진이 발표한 ‘Michelangelo’ 평가 방식은 최신 대규모 언어 모델들의 장문 이해 능력을 테스트하는 새로운 기준을 제시했다. 이 평가 방식은 기존의 ‘건초더미 속 바늘 찾기’ 방식을 넘어 보다 복잡한 장문 추론 능력을 측정하기 위해 고안되었다.
Michelangelo 평가의 특징
Michelangelo 평가는 AI 모델의 장문 이해력을 종합적으로 측정하기 위해 고안된 새로운 평가 방식이다. 이 평가는 세 가지 주요 과제를 통해 AI의 다양한 능력을 테스트한다.
첫 번째 과제인 ‘잠재 목록(Latent List)’은 Python 프로그래밍 언어에 대한 AI의 이해도를 평가한다. 이 과제에서는 AI에게 Python 리스트를 조작하는 일련의 명령을 제시하고, 최종 결과값을 정확히 도출해내는 능력을 측정한다. 이를 통해 AI의 코드 해석 및 실행 능력을 평가할 수 있다.
두 번째 과제인 ‘다중 라운드 상호참조 해결(MRCR)’은 AI의 맥락 이해 능력을 테스트한다. 이 과제에서는 AI에게 긴 대화 내용을 제시하고, 그 안에서 특정 정보를 정확히 찾아내어 재현하도록 요구한다. 이는 AI가 복잡한 맥락 속에서 관련 정보를 식별하고 추출할 수 있는 능력을 평가한다.
마지막 과제인 ‘모르는 것 인정하기(IDK)’는 AI의 불확실성 인식 능력을 측정한다. 이 과제에서는 AI에게 주어진 정보만으로는 답변이 불가능한 질문을 던지고, AI가 “모른다”고 인정할 수 있는지를 테스트한다. 이는 AI가 자신의 지식의 한계를 인식하고 정직하게 표현할 수 있는 능력을 평가한다.
이러한 다각도 평가를 통해 연구자들은 AI 모델의 장문 이해력을 보다 포괄적으로 측정할 수 있게 되었다. 각 과제는 AI의 서로 다른 측면을 평가하므로, 모델의 전반적인 성능과 함께 특정 영역에서의 강점과 약점을 파악할 수 있다.
평가 결과, 각 AI 모델은 서로 다른 강점을 보여주었다. GPT-4는 ‘잠재 목록’ 과제에서 가장 우수한 성능을 보였는데, 이는 GPT-4가 코드 관련 작업에 대한 높은 이해도를 가지고 있음을 시사한다. 반면 Claude 3.5 Sonnet은 ‘모르는 것 인정하기(IDK)’ 과제에서 최고 성능을 기록했다. 이는 Claude 3.5가 주어진 정보의 한계를 인식하고 적절히 대응하는 능력이 뛰어남을 보여준다.
특히 주목할 만한 결과를 보인 것은 구글의 Gemini 모델이다. 다른 모델들이 대체로 32K 토큰 이상의 장문에서 성능 저하를 겪는 반면, Gemini는 100만 토큰 이상의 극도로 긴 문장에서도 성능을 유지하는 것으로 나타났다. 이는 Gemini가 매우 긴 문맥을 처리하는 데 특화되어 있음을 보여주는 결과이다.
이러한 결과는 각 AI 모델이 가진 고유한 특성과 강점을 잘 보여준다. GPT-4의 코드 이해 능력, Claude 3.5의 불확실성 인식 능력, Gemini의 장문 처리 능력 등은 각 모델이 특정 영역에서 뛰어난 성능을 발휘할 수 있음을 시사한다. 이는 AI 기술의 다양성을 보여주는 동시에, 앞으로 AI 모델들이 더욱 발전하여 다양한 분야에서 활용될 수 있는 가능성을 제시한다.
연구진은 “Gemini 모델은 초기 성능 하락 이후 100만 토큰까지 성능이 저하되지 않는 모습을 보였다”고 설명했다. 이는 Gemini가 극도의 장문 처리에 최적화되어 있음을 시사한다. 반면, GPT-4와 Claude 3 모델들은 128K 토큰까지는 의미 있는 성능을 보였지만, 그 이상의 길이에서는 성능 저하가 관찰되었다.
AI 모델의 장문 이해력 한계와 전망
연구진은 “모든 최신 모델들이 이 평가에서 초기에 급격한 성능 하락을 겪는다”고 지적했다. 이는 현재의 AI 모델들이 아직 장문에 대한 종합적 이해와 추론에 한계가 있음을 의미한다. 특히 복잡한 맥락을 파악하고 여러 정보를 종합하여 추론하는 능력에서 개선의 여지가 있는 것으로 나타났다.
연구를 주도한 Kiran Vodrahalli는 “우리의 목표는 단순히 AI의 장문 이해 능력을 테스트하는 것이 아니라, AI 시대에 걸맞은 평가 시스템을 구축하는 것”이라며 “이는 학생들의 실제 능력과 창의성을 정확히 평가하고, 동시에 AI를 적절히 활용할 수 있는 능력을 키우는 방향이어야 한다”고 강조했다.
이러한 관점은 AI 기술의 발전이 단순히 기술적 성능 향상에 그치지 않고, 교육 및 평가 시스템의 혁신으로 이어져야 함을 시사한다. 향후 AI 모델들은 더 긴 문맥을 이해하고 복잡한 추론을 수행할 수 있도록 발전할 것으로 예상되며, 이는 교육 현장에서의 AI 활용 방식에도 큰 영향을 미칠 것으로 보인다.
Michelangelo 평가를 통한 최신 AI 모델들의 성능 비교는 현재 AI 기술의 장단점을 명확히 보여주고 있다. GPT-4, Claude 3, Gemini 등 각 모델은 서로 다른 강점을 가지고 있으며, 이는 AI 기술의 다양성과 발전 가능성을 시사한다.
특히 Gemini 모델이 보여준 장문 처리 능력은 향후 AI 기술의 발전 방향을 제시하고 있다. 그러나 동시에 모든 모델들이 초기에 급격한 성능 하락을 겪는다는 점은 AI의 장문 이해 및 추론 능력에 여전히 한계가 있음을 보여준다.
이번 연구 결과는 AI 기술의 발전 방향뿐만 아니라, 이를 어떻게 교육 현장에 접목시킬 것인지에 대한 논의의 필요성도 제기하고 있다. AI의 장문 이해 능력이 향상됨에 따라, 교육 평가 시스템도 이에 맞춰 진화해야 할 것이다.
앞으로 AI 모델들의 장문 이해 및 추론 능력이 더욱 발전함에 따라, 우리는 AI를 단순한 도구가 아닌 지적 파트너로 활용할 수 있는 시대를 맞이하게 될 것이다. 이는 교육, 연구, 비즈니스 등 다양한 분야에서 혁신적인 변화를 가져올 것으로 전망된다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기