Evaluating the World Model Implicit in a Generative Model
생성형 AI의 세계 모델링 능력은 겉보기와 달랐다
하버드대학교와 MIT 공동 연구팀이 생성형 AI 모델의 ‘세계 모델(World Model)’ 학습 능력을 심층 평가한 결과, 겉보기의 우수한 성능과 달리 실제 모델의 이해도는 매우 낮은 것으로 나타났다. 연구팀은 뉴욕시 택시 내비게이션, 보드게임 오델로, 논리 퍼즐 등 세 가지 도메인에서 광범위한 실험을 진행했다.
연구를 주도한 하버드대학교의 케이온 바파(Keyon Vafa) 연구원은 “최근 대형 언어 모델들이 학습된 과제를 넘어서는 능력을 보여주면서, 이들이 암묵적으로 세계 모델을 학습했을 가능성이 제기됐다”며 “우리는 이를 객관적으로 평가할 수 있는 방법을 개발하고자 했다”고 설명했다.
기존 평가 방식의 심각한 한계 발견
연구진은 생성형 AI가 다음 토큰을 정확히 예측하는 기존의 평가 방식으로는 모델의 진정한 이해도를 측정하기 어렵다는 점을 실험을 통해 입증했다. 뉴욕시 지도 학습 실험에서 모델은 다음 방향을 95% 이상 정확히 예측했지만, 실제로는 도시의 물리적 구조를 제대로 이해하지 못한 것으로 나타났다.
특히 연구팀이 개발한 그래프 재구성 기법을 통해 모델이 이해한 뉴욕시의 지도를 시각화한 결과, 물리적으로 불가능한 방향의 도로와 다른 도로 위를 지나가는 육교 등이 다수 포함된 것으로 확인됐다. 이는 모델이 단순히 패턴을 학습했을 뿐, 실제 도시 구조에 대한 이해는 부족하다는 것을 보여준다.
혁신적인 새 평가 지표 개발
연구팀은 언어 이론의 고전인 ‘마이힐-네로드 정리(Myhill-Nerode theorem)’를 활용해 두 가지 새로운 평가 지표를 개발했다. 첫 번째 ‘시퀀스 압축(Sequence compression)’ 지표는 동일한 상태로 이어지는 서로 다른 시퀀스들을 모델이 제대로 인식하는지 평가한다. 두 번째 ‘시퀀스 구분(Sequence distinction)’ 지표는 서로 다른 상태들을 모델이 정확히 구분할 수 있는지 측정한다.
이 평가 지표들을 적용한 결과, 기존 방식에서는 우수한 성능을 보였던 모델들의 심각한 결함이 드러났다. 예를 들어 뉴욕시 내비게이션 실험에서 최단 경로 학습 모델은 압축 정밀도에서 0.19, 구분 정밀도에서 0.36이라는 낮은 점수를 기록했다. 이는 모델이 동일한 위치에 도달하는 다른 경로들을 제대로 인식하지 못하고, 서로 다른 위치도 정확히 구분하지 못한다는 것을 의미한다.
대형 언어 모델의 논리적 이해력 부족 확인
연구팀은 GPT-4, GPT-3.5, Llama-3 등 최신 대형 언어 모델들의 논리 퍼즐 해결 능력도 평가했다. 흥미롭게도 대부분의 모델이 주어진 퍼즐은 높은 정확도로 해결했지만, 실제 상황에 대한 논리적 이해도는 매우 낮은 것으로 나타났다.
구체적으로 GPT-4는 논리 퍼즐을 100% 정확도로 해결했지만, 시퀀스 압축 정밀도는 0.21, 시퀀스 구분 재현율은 0.56에 그쳤다. 이는 모델이 퍼즐의 답은 찾을 수 있지만, 그 과정에서 필요한 논리적 구조를 제대로 이해하지 못한다는 것을 보여준다.
우회로 실험으로 드러난 취약성
연구팀은 뉴욕시 내비게이션 모델의 실제 활용 가능성을 테스트하기 위해 우회로 실험도 진행했다. 특정 확률로 무작위 또는 의도적인 우회로를 추가했을 때 모델의 성능이 급격히 저하되는 것을 확인했다. 이는 모델이 실제 도로 구조를 이해하지 못해 예상치 못한 상황에 취약하다는 것을 보여준다.
예를 들어 최단 경로 학습 모델은 우회로가 없을 때 99%의 유효한 경로를 생성했지만, 우회로가 10% 확률로 추가되자 유효 경로 생성률이 9%로 급락했다. 반면 무작위 걷기로 학습한 모델은 우회로가 75% 확률로 추가돼도 80%의 유효 경로를 생성할 수 있었다.
연구의 의의와 시사점
이번 연구는 생성형 AI의 실제 이해 수준을 정확히 평가하기 위한 새로운 방법론을 제시했다는 점에서 큰 의의가 있다. 연구진은 “생성형 AI가 특정 과제는 잘 수행하더라도 근본적인 논리와 구조를 이해하지 못할 수 있다”며 “이는 AI 모델 개발과 평가 방식의 근본적인 개선이 필요함을 시사한다”고 강조했다.
특히 연구팀은 기존의 성능 평가 방식이 모델의 실제 능력을 과대 평가할 수 있다는 점을 지적하며, 더 엄격하고 이론적으로 검증된 평가 방식의 필요성을 역설했다. 이는 향후 AI 모델의 개발 방향과 평가 기준에 중요한 영향을 미칠 것으로 예상된다.
향후 연구 방향
연구팀은 이번 연구의 한계로 결정적 유한 오토마타(Deterministic Finite Automata)에 국한된 평가 방식을 꼽았다. 향후 연구에서는 더 복잡한 세계 모델이나 미지의 세계 모델에 대한 평가 방식으로 확장할 필요가 있다고 제안했다.
또한 시퀀스 압축과 구분이라는 핵심 아이디어를 더 풍부한 환경에서 적용하는 방안도 후속 연구 과제로 제시했다. 이를 통해 생성형 AI의 진정한 이해력을 더 정확히 평가하고, 궁극적으로는 더 나은 AI 모델 개발에 기여할 수 있을 것으로 기대된다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기