BONGARD IN WONDERLAND: Visual Puzzles that Still Make AI Go Mad?
AI의 시각적 추론 능력 검증을 위한 도전
최근 OpenAI의 GPT-4o와 같은 시각-언어 모델(Vision-Language Models, VLMs)이 텍스트와 이미지를 함께 처리하는 능력에서 놀라운 발전을 보이고 있다. 이러한 모델들은 이미지 설명, 객체 인식, 시각적 질문 답변 등 다양한 작업에서 인상적인 성능을 보여주고 있다. 하지만 TU 다름슈타트 연구진은 이러한 모델들이 진정한 의미의 시각적 추론 능력을 갖추었는지 의문을 제기하고, 이를 검증하기 위해 ‘본가드 문제(Bongard Problems)’라는 고전적인 시각 퍼즐을 활용한 실험을 진행했다.
본가드 문제의 특별함과 의의
1967년 러시아의 과학자 미하일 본가드가 고안한 본가드 문제는 12개의 간단한 흑백 도형으로 구성된 시각 퍼즐이다. 이 퍼즐은 왼쪽과 오른쪽 각각 6개의 도형으로 나뉘어 있으며, 각 그룹은 서로 다른 특정한 규칙을 따른다. 예를 들어, 한쪽은 수직으로 늘어난 도형들을, 다른 쪽은 수평으로 늘어난 도형들을 보여주는 식이다.
본가드 문제의 핵심은 단순히 패턴을 인식하는 것이 아니라, 각 그룹의 공통된 규칙을 추상적으로 이해하고 이를 언어로 표현하는 능력에 있다. 이는 일반적인 이미지 분류 작업과는 달리, 더 높은 수준의 인지 능력과 추상적 사고를 요구한다. 따라서 이 문제는 AI 시스템의 시각적 추론 능력을 평가하는 데 이상적인 테스트베드가 된다.
AI의 놀라운 실패와 한계
연구팀은 GPT-4o, Claude, Gemini, LLaVA 1.6, LLaVA 1.5 등 최신 VLM들을 대상으로 100개의 본가드 문제를 테스트했다. 결과는 충격적이었다. 가장 좋은 성능을 보인 GPT-4o조차 100개 중 단 21개의 문제만을 해결했다. 더욱 놀라운 것은, 모델들이 나선의 회전 방향이나 공간적 관계와 같은 기초적인 시각 개념조차 제대로 파악하지 못하는 경우가 많았다는 점이다.
특히 연구팀은 네 가지 특정 문제(BP#16, #29, #36, #55)에 대해 더 자세한 분석을 진행했다. 예를 들어, BP#16에서는 나선의 회전 방향을 판단하는 간단한 작업에서도 모든 모델이 실패했다. 심지어 해당 개념에 대해 명시적으로 주의를 기울이도록 지시받았을 때조차 정확한 판단을 하지 못했다.
인간과의 비교에서 드러난 현격한 차이
연구팀은 13명의 인간 참가자들과 AI 모델들의 성능을 직접 비교했다. 인간 참가자들은 평균 84.41%의 정확도를 보인 반면, 최고 성능의 AI 모델인 Claude는 20.16%의 정확도에 그쳤다. 특히 존재 여부나 공간적 관계를 판단하는 문제에서 인간은 93% 이상의 정확도를 보였지만, AI 모델들은 대부분 10% 미만의 저조한 성능을 보였다.
흥미로운 점은 개념적 추상화가 필요한 문제들에서 GPT-4o가 약 40%의 정확도를 보이며 상대적으로 좋은 성능을 보였다는 것이다. 이는 AI 모델이 기하학적 개념과 같은 세계 지식을 활용하는 데는 어느 정도 능숙할 수 있지만, 기본적인 시각적 패턴 인식에서는 여전히 큰 한계를 가지고 있음을 시사한다.
시사점과 향후 과제
이 연구는 현재 AI 시스템이 가진 근본적인 한계를 명확히 드러낸다. AI가 복잡한 작업을 수행할 수 있더라도, 인간에게는 자명한 기본적인 시각적 개념을 이해하는 데 어려움을 겪는다는 점이 확인됐다. 이는 단순히 더 많은 데이터나 더 큰 모델을 사용하는 것으로는 해결되기 어려운 근본적인 문제일 수 있다.
연구진은 이러한 한계를 극복하기 위한 여러 가지 방향을 제시했다. 시각적 개념의 발견과 추론을 분리하는 다단계 접근법, 실제 세계 맥락에서의 시각 개념 학습, 더 효과적인 이미지 인코딩 방식의 개발 등이 그것이다. 또한 본가드 문제의 개념들을 실제 세계의 맥락으로 확장하여 AI의 시각적 추론 능력을 더욱 깊이 있게 연구할 필요성도 제기했다.
이 연구 결과는 AI의 발전 방향에 대해 중요한 시사점을 제공한다. 겉으로 보이는 성능의 향상 못지않게, 기초적인 시각적 추론 능력의 향상이 AI 발전의 핵심 과제임을 보여준다. 이는 앞으로의 AI 연구가 더 근본적인 인지 능력의 개발에 초점을 맞춰야 함을 시사한다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기