• Home
  • AI Report
  • “감정은 이해·촉각과 후각은 이해 못해” LLM의 감각에 대한 연구 결과 공개

“감정은 이해·촉각과 후각은 이해 못해” LLM의 감각에 대한 연구 결과 공개

Large language models without grounding recover non-sensorimotor but not sensorimotor features of human concepts
이미지 출처: 이디오그램 생성

Large language models without grounding recover non-sensorimotor
but not sensorimotor features of human concepts


GPT-4와 제미나이(Gemini) 같은 거대언어모델(LLM)들이 감각-운동 경험 없이도 감정이나 추상적 개념에서는 인간과 유사한 표현을 보인다는 연구 결과가 발표됐다. 오하이오 주립대학교와 홍콩 폴리텍 대학교 공동연구진은 4,442개의 어휘 개념을 분석한 결과, 언어 학습만으로도 비감각운동 영역에서는 강한 상관관계를 보인다고 발표했다. 특히 감정적 각성(arousal), 가치(valence), 지배감(dominance) 같은 추상적 차원에서 거대언어모델들은 인간의 개념 표현과 높은 유사성을 나타냈다. 이는 언어 자체가 복잡한 개념 형성에 중요한 역할을 한다는 기존 이론을 뒷받침한다.

‘꽃’ vs ‘정의’: AI가 이해하는 개념과 못하는 개념의 결정적 차이

연구진이 제시한 구체적 사례를 보면 AI의 한계가 명확히 드러난다. ‘꽃(flower)’ 개념의 경우, 거대언어모델들은 시각적 차원에서는 높은 점수를 기록했지만 손발 움직임 같은 운동 차원에서는 현저히 낮은 점수를 보였다. 반면 ‘정의(justice)’ 같은 추상 개념에서는 감정적 각성이나 가치 판단 등 비감각운동 차원에서 인간과 유사한 표현을 나타냈다. 이는 AI가 언어로 자주 묘사되는 추상적 개념은 잘 이해하지만, 직접적인 신체 경험이 필요한 개념에서는 근본적 한계가 있음을 보여준다. 특히 꽃을 만지거나 냄새 맡는 행위 같은 감각-운동 경험은 언어만으로는 완전히 학습할 수 없다는 것이 입증됐다.

시각 학습의 힘! GPT-4가 GPT-3.5보다 70% 더 인간다운 이유

시각 데이터로 추가 학습된 GPT-4와 제미나이는 텍스트만 학습한 GPT-3.5, PaLM 대비 시각 관련 차원에서 인간과의 유사성이 크게 향상됐다. 연구진의 분석에 따르면, ChatGPT 모델의 경우 시각 연관 강도가 GPT-4와 GPT-3.5 간 정렬 변화의 약 70%를 설명할 수 있었다. 구글 모델들도 26%의 분산을 시각 연관 강도로 설명할 수 있어, 멀티모달 학습의 중요성이 입증됐다. 특히 구체성(concreteness)과 심상화 가능성(imageability) 같은 시각 관련 차원에서 이러한 개선 효과가 두드러졌다.

운동 영역에서 처참한 패배! 효과 크기 -1.87로 인간과 극명한 차이

거대언어모델들은 감각 영역에서 상당한 한계를 드러냈고, 특히 운동 영역에서는 인간과의 유사성이 최소 수준에 그쳤다. 표상 유사성 분석(RSA) 결과, 비감각운동 영역에서 감각 영역으로, 다시 운동 영역으로 갈수록 모델-인간 간 유사성이 체계적으로 감소했다. 챗GPT 모델의 경우 운동 영역이 비감각운동 영역보다 유의하게 낮은 유사성을 보였으며, 구글 모델들도 비슷한 패턴을 나타냈다. 이는 언어만으로는 신체적 경험과 직결된 개념을 완전히 학습하기 어렵다는 것을 시사한다.

18개 차원 전면 분석 결과: GPT-4도 운동 영역 5개 중 2개만 통과

연구진은 글래스고 규범(Glasgow Norms)과 랭캐스터 규범(Lancaster Norms)을 활용해 총 4,442개의 영어 어휘를 18개 차원에서 분석했다. 개별 수준 분석에서 비감각운동 영역의 7개 차원 중 GPT-4는 모든 차원에서, GPT-3.5는 4개 차원에서 인간-인간 유사성과 차이가 없었다. 하지만 감각 영역 6개 차원에서는 GPT-4만 4개 차원에서 유사성을 유지했고, 운동 영역 5개 차원에서는 GPT-4가 2개 차원에서만 유사성을 보였다. 이러한 결과는 언어 학습이 추상적 개념에서는 효과적이지만, 신체적 경험이 필요한 개념에서는 명확한 한계가 있음을 보여준다.

대체 검증으로 확인된 결과의 신뢰성, 제미나이만 예외

연구의 신뢰성을 확보하기 위해 연구진은 별도의 검증 규범을 활용한 추가 분석을 실시했다. GPT-3.5의 경우 감정가(valence) 차원에서 검증 규범 0.83, 원본 규범 0.90으로 일관된 높은 성능을 보였다. GPT-4는 손/팔 운동 차원에서 모델-인간 상관관계가 0.68로, 인간끼리의 상관관계 0.55보다도 높게 나타나 모델의 일관성을 입증했다. 하지만 제미나이(Gemini)는 감정적 각성(arousal) 차원에서만 예외적으로 낮은 성능(0.15)을 보여, 특정 영역에서의 불안정성이 확인됐다. 이러한 검증 분석을 통해 연구 결과가 특정 프롬프트에 의존하지 않고 모델 자체의 능력을 반영한다는 것이 확인됐다.

FAQ

Q: 거대언어모델이 감각-운동 개념을 이해하지 못하는 이유는 무엇인가요?

A: 거대언어모델은 텍스트 데이터만으로 학습되기 때문에 실제 감각 경험이나 신체 움직임을 직접 체험할 수 없습니다. 특히 운동 관련 개념들은 언어로 설명되는 빈도가 낮아 학습이 더욱 어렵습니다.

Q: 시각 학습이 추가된 모델이 더 나은 성능을 보이는 이유는 무엇인가요?

A: GPT-4나 제미나이 같은 멀티모달 모델은 텍스트와 이미지를 함께 학습해 시각 정보를 활용할 수 있습니다. 이로 인해 구체성이나 심상화 가능성 같은 시각 관련 개념에서 인간과 더 유사한 표현을 구현할 수 있습니다.

Q: 이 연구 결과가 AI 발전에 어떤 의미를 갖나요?

A: 이 연구는 진정한 인간 수준의 AI를 위해서는 언어뿐만 아니라 다양한 감각 경험과 신체적 상호작용이 필요하다는 것을 보여줍니다. 향후 AI 개발에서 멀티모달 학습과 로봇틱스 통합의 중요성을 시사합니다.

해당 기사에 인용된 논문 원문은 네이처에서 확인 가능하다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




“감정은 이해·촉각과 후각은 이해 못해” LLM의 감각에 대한 연구 결과 공개 – AI 매터스 l AI Matters