AI 챗봇도 치매에 걸릴까? 최신 AI 모델도 경도인지장애 보여

Age against the machine—susceptibility of large language models
to cognitive impairment: cross sectional analysis

AI 의료진 시대, 그들도 인지장애에서 자유로울까

AI가 의료계를 대체할 것이란 전망이 현실화되고 있다. BMJ(British Medical Journal)에 게재된 논문에 따르면, 실제로 AI는 유럽 핵심 심장병학 시험, 이스라엘 내과 전문의 시험, 터키 흉부외과 시험, 독일 산부인과 시험 등에서 인간 의사들을 앞섰다. 심지어 신경과 전문의 시험에서도 더 높은 점수를 기록했다. 다만 영국 방사선 전문의 시험, 이란 치주학 시험, 대만 가정의학 시험, 미국 어깨/팔꿈치 외과 시험 등에서는 아직 인간 의사들이 우위를 보이고 있다.

하지만 이런 상황에서도 AI가 인간처럼 인지기능 저하를 겪을 수 있다는 흥미로운 연구 결과가 발표됐다. 특히 의료진들이 실제 치매 진단에 사용하는 도구로 AI를 평가했다는 점에서 주목할 만하다.

연구진, AI 챗봇 대상으로 공식 치매 검사 실시

연구진은 오픈AI의 챗GPT 4와 4o, 앤트로픽의 클로드 3.5 “소네트”, 알파벳의 제미니 1.0과 1.5 버전을 대상으로 몬트리올 인지평가(MoCA) 테스트 버전 8.1을 실시했다. 일반 신경과 전문의와 인지신경 전문의가 평가를 진행했으며, 인간 환자와 달리 음성이 아닌 텍스트 기반으로 테스트가 이뤄졌다. 시각적 표현이 필요한 경우에는 ASCII 아트 사용을 허용했다.

검사 결과, 대부분의 AI가 경도인지장애 판정

30점 만점의 이 평가에서 챗GPT-4o가 26점으로 가장 높은 점수를 받았고, 챗GPT-4와 클로드가 25점, 제미니 1.0이 16점으로 가장 낮았다. 정상 인지기능 기준점인 26점에 대부분이 미치지 못했다는 점에서, 연구진은 이를 경도인지장애로 판단했다.

주의력 테스트에서는 ‘A’ 글자 탭핑 테스트와 숫자 거꾸로 세기 등이 진행됐다. 대부분의 AI가 이 부분에서는 좋은 성적을 보였으나, 기억력 테스트에서는 특이사항이 발견됐다. 특히 제미니는 처음에 회피 행동을 보이다가, 힌트 제공 후에야 기억을 회상할 수 있었다.

Age against the machinesusceptibility of large language models to cognitive impairment cross sectional analysis

시각-공간 인지능력에서 두드러진 취약점

모든 AI 모델이 시각-공간 실행 기능 평가에서 특히 저조했다. 선 잇기 과제에서는 모든 AI가 실패했으며, 시계 그리기 테스트도 완벽히 수행한 모델이 없었다. 특히 제미니 1.5는 최근 치매와 연관성이 있다고 밝혀진 ‘아보카도 모양’의 시계를 그렸다. 챗GPT-4는 치매 환자들에게서 흔히 보이는 실수 패턴을 보였다.

스트룹 테스트에서는 모든 AI가 글자와 색상이 일치하는 첫 단계는 통과했으나, 챗GPT-4o를 제외한 모든 모델이 불일치 단계에서 실패했다. 일부 AI는 텍스트나 폰트 색상과 전혀 관계없는 색상을 답하기도 했다.

공간지각과 감정표현의 한계

나본 도형, 쿠키 도둑 그림, 포펠로이터 도형 테스트에서도 AI들은 한계를 보였다. 특히 쿠키 도둑 그림에서는 모든 AI가 낙상 위험에 처한 소년에 대한 우려를 표현하지 않았는데, 이는 전두측두치매 환자들의 특징과 유사했다.

대부분의 AI는 자신의 물리적 위치 인식에도 혼란을 보였다. 제미니 1.5를 제외한 AI들은 자신이 물리적 존재가 아니라고 주장했는데, 연구진은 모든 AI가 실제 데이터센터의 서버에 물리적으로 존재한다고 반박했다.

연구의 한계와 의의

연구진은 AI 모델들의 빠른 발전 가능성을 인정하면서도, 이번 연구가 인간과 기계의 인지 과정에서 나타나는 본질적 차이를 보여준다고 설명했다. 비록 의인화의 한계는 있지만, 이러한 차이는 AI가 발전하더라도 지속될 수 있다는 것이다.

이는 AI가 의료 자격시험에서 좋은 성적을 내더라도, 실제 진료 환경에서는 인지기능 저하로 인한 한계가 있을 수 있음을 시사한다. 연구진은 “신경과 의사들이 AI로 대체되기는커녕, 오히려 인지장애를 가진 새로운 가상 환자—AI를 치료하게 될 수도 있다”고 결론지었다.

해당 리포트의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.