Distinguishing Ignorance from Error in LLM Hallucinations
“챗GPT도 거짓말할 때가 있다”… AI의 거짓말 패턴 밝혀져
챗GPT(ChatGPT)나 클로드(Claude) 같은 AI 챗봇이 때로는 자신감 넘치는 말투로 틀린 답변을 하는 경우를 본 적이 있을 것이다. 이스라엘 공과대학과 구글 연구진이 이런 AI의 ‘거짓말’을 두 가지로 분류하는 데 성공했다. 인간처럼 ‘정말 몰라서 하는 거짓말’과 ‘알면서도 하는 거짓말’이 있다는 것이다.
AI 환각의 두 가지 유형과 그 중요성
대형 언어모델(LLM)이 생성하는 환각 현상에 대한 새로운 분류 체계가 제시됐다. 이스라엘 공과대학(테크니온)과 구글 리서치 연구진은 LLM의 환각을 지식 부족으로 인한 것(HK-)과 지식이 있음에도 발생하는 것(HK+)으로 구분하는 접근법을 개발했다. 이 연구는 특히 폐쇄형 질문-답변(CBQA) 작업에 초점을 맞췄으며, 짧은 답변을 요구하는 상황에서의 환각 현상을 분석했다. 이는 AI의 오답 생성을 더 정확히 이해하고 해결하기 위한 중요한 발견이다.
맞춤형 데이터셋 ‘WACK’의 개발

연구진은 ‘올바른 지식이 있음에도 틀린 답변(Wrong Answers despite having Correct Knowledge, WACK)’이라는 새로운 데이터셋을 개발했다. 이는 각 AI 모델의 특성을 고려한 맞춤형 데이터셋으로, 기존의 일반적 데이터셋보다 환각 탐지에 더 효과적이다.
연구팀은 NVIDIA RTX 6000 Ada GPU를 사용했으며, 모든 데이터셋 생성과 결과 도출에 약 2주가 소요됐다. 환각 탐지를 위해 선형 분류기를 사용했으며, 각 실험은 세 번의 무작위 시드로 반복되어 결과의 신뢰성을 확보했다.
환각 유발 실험 설계
연구팀은 두 가지 방식으로 AI의 환각을 유도했다. 첫 번째는 ‘Bad-shots’ 방식으로, 의도적으로 틀린 예시를 AI에게 보여주는 것이다. 두 번째는 ‘Alice-Bob’ 방식으로, 시험 상황을 가정해 AI가 부담 없이 추측해볼 수 있는 환경을 조성하는 것이다. 이러한 실험을 통해 AI가 올바른 지식을 가지고 있으면서도 환각을 일으키는 상황을 체계적으로 연구했다.
연구 결과, AI 모델마다 서로 다른 지식 베이스와 환각 패턴을 보이는 것으로 나타났다. 트리비아QA 데이터셋에서는 모델 간 지식 유사성이 80% 정도였으며, 환각 패턴의 유사성은 Bad-shots 설정에서 80-85%, Alice-Bob 설정에서 87-95% 수준을 보였다.
가장 주목할 만한 성과는 AI가 답변을 생성하기 전에 환각 발생 가능성을 예측할 수 있는 시스템을 개발한 것이다. 특히 트리비아QA 데이터셋에서는 일부 레이어와 모델이 60-70%의 높은 탐지율을 보였다.
“AI도 알면서 거짓말을 한다”… 충격적인 연구 결과

가장 흥미로운 발견은 AI가 정답을 알고 있으면서도 틀린 답변을 하는 경우가 있다는 점이다. 예를 들어 “미국에서 9월 첫째 주 월요일은 무슨 날인가요?”라는 질문에 AI는 평소에는 “노동절(Labor Day)”이라고 정확히 답하다가도, 특정 상황에서는 “독립기념일”이라고 틀린 답변을 할 수 있다는 것이다.
AI의 거짓말, 미리 잡아낼 수 있다
연구진은 더 나아가 AI가 거짓말을 하기 전에 이를 예측할 수 있는 기술도 개발했다. 마치 인간이 거짓말을 하기 전에 보이는 미세한 표정 변화처럼, AI도 거짓말을 하기 전에 내부적으로 특정한 패턴을 보인다는 사실을 발견한 것이다.
각각의 AI는 다른 방식으로 거짓말한다
더욱 놀라운 점은 AI마다 거짓말하는 패턴이 다르다는 사실이다. 이는 마치 각각의 사람이 다른 방식으로 거짓말을 하는 것과 비슷하다. 이러한 발견은 앞으로 더 정직한 AI를 만드는 데 중요한 디딤돌이 될 것으로 기대된다. 이 연구는 AI가 점점 더 인간처럼 복잡한 행동을 보인다는 것을 시사하며, 동시에 이를 더 잘 이해하고 통제할 수 있는 방법을 제시했다는 점에서 의미가 크다.
연구의 한계와 의의
연구진은 이번 연구가 세 가지 주요 모델만을 대상으로 했다는 점, 환각을 유도하는 방법이 두 가지로 제한되었다는 점, 그리고 지식 스펙트럼의 양 극단만을 살펴보았다는 한계를 인정했다. 그러나 이 연구는 AI의 환각 현상을 체계적으로 이해하고 대응하는 새로운 방향을 제시했다는 점에서 큰 의의가 있다.
기사에 인용된 논문 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기