Detecting hallucinations in large language models using semantic entropy
인공지능(AI) 기술이 발전함에 따라 대화형 AI 모델의 활용 범위가 넓어지고 있다. 하지만 이러한 모델들이 때때로 보이는 ‘환각’ 현상은 여전히 큰 걸림돌로 작용하고 있다. 지난 6월 영국 옥스퍼드대학교 연구팀이 이 문제를 해결할 수 있는 새로운 방법을 제시해 주목받고 있다. ‘의미론적 엔트로피(semantic entropy)’라 명명된 이 기법은 AI 모델이 생성한 텍스트의 의미를 분석해 신뢰할 수 없는 답변을 효과적으로 탐지할 수 있는 것으로 나타났다.
AI 모델의 환각 문제와 그 중요성
대규모 언어 모델(LLM)을 기반으로 한 챗GPT(ChatGPT)나 제미니(Gemini) 같은 AI 시스템은 뛰어난 추론과 질문 답변 능력을 보여주며 다양한 분야에서 활용되고 있다. 그러나 이러한 시스템들이 때때로 보이는 ‘환각’ 현상, 즉 거짓된 출력과 근거 없는 답변을 생성하는 문제는 AI 기술의 신뢰성에 큰 의문을 제기하게 만들었다. 이는 법률, 뉴스, 의료 등 정확성과 신뢰성이 매우 중요한 분야에서 AI 도입을 가로막는 중요한 장애물이 되고 있다.
의미론적 엔트로피: 새로운 해결책
연구의 제1저자인 세바스찬 파쿠하(Sebastian Farquhar) 박사는 “AI 시스템의 신뢰성 부족으로 인해 사용자들이 특정 출력이 정확한지 확신할 수 없다”며 연구의 배경을 설명했다. 이는 AI 기술의 실용화에 있어 매우 중요한 문제로, 연구팀은 이를 해결하기 위해 새로운 접근 방식을 모색했다.
연구팀은 AI 모델의 환각 중에서도 ‘조작(confabulation)’이라 부르는 특정 유형에 주목했다. 조작은 AI가 유창하게 잘못된 주장을 하면서도, 그 답변이 임의적이고 일관성이 없는 경우를 말한다. 예를 들어, 동일한 질문에 대해 때로는 맞는 답변을, 때로는 틀린 답변을 할 때 이를 조작이라고 볼 수 있다. 이러한 조작을 탐지하기 위해 연구팀은 ‘의미론적 엔트로피’ 방법을 제안했다.
의미론적 엔트로피 방법은 다음과 같은 과정을 거친다. 먼저, AI 모델로부터 동일한 질문에 대해 여러 개의 답변을 생성한다. 그 다음, 생성된 답변들을 의미에 따라 군집화한다. 이 과정에서 표현은 다르지만 같은 의미를 가진 답변들을 하나의 그룹으로 묶는다. 마지막으로, 이렇게 군집화된 답변들의 엔트로피, 즉 불확실성을 계산한다.
파쿠하 박사는 “이 방법은 AI가 동일한 의미를 다르게 표현하는 경우와 실제로 다른 의미의 답변을 하는 경우를 구분할 수 있다”고 설명했다. 이는 기존의 방법들이 단순히 답변의 다양성만을 측정하던 것과는 달리, 답변의 의미적 일관성을 평가할 수 있다는 점에서 큰 진전이라고 볼 수 있다.
방법의 효과성 입증
연구팀은 이 방법의 효과성을 입증하기 위해 다양한 데이터셋에서 테스트를 진행했다. 트리비아QA(TriviaQA), 스쿼드(SQuAD), 바이오ASQ(BioASQ) 등 서로 다른 특성을 가진 여러 데이터셋을 사용해 의미론적 엔트로피 방법의 성능을 평가했다. 그 결과, 이 방법은 기존의 방식들보다 AI 모델의 오류를 더 정확하게 예측할 수 있었다.
특히 주목할 만한 점은 이 방법이 새롭고 처음 보는 질문에 대해서도 환각을 탐지할 수 있다는 것이다. 이는 특정 도메인에 대한 사전 지식 없이도 작동한다는 장점이 있다. 즉, AI 모델이 학습하지 않은 새로운 영역의 질문에 대해서도 답변의 신뢰성을 평가할 수 있다는 의미다. 이는 AI 시스템의 실제 응용에 있어 매우 중요한 특성이라고 할 수 있다.
연구팀은 또한 이 방법을 통해 AI 모델의 답변 정확도를 향상시킬 수 있음을 보였다. 의미론적 엔트로피가 높은, 즉 불확실성이 높은 질문에 대해서는 답변을 거부하도록 설정함으로써, 전체적인 답변의 정확도를 높일 수 있었다. 이는 AI 시스템이 자신의 한계를 인식하고, 확신이 없는 경우에는 답변을 하지 않는 ‘지혜’를 갖출 수 있음을 시사한다.
이번 연구 결과는 AI 모델의 신뢰성을 높이는 데 큰 기여를 할 것으로 보인다. 의미론적 엔트로피 방법을 활용하면 AI 시스템이 언제 추가적인 주의가 필요한지 사용자에게 알려줄 수 있어, 이전에는 신뢰성 문제로 AI 사용이 제한되었던 분야에서도 새로운 가능성을 열 수 있을 것으로 기대된다.
연구의 의의와 향후 전망
파쿠하 박사는 연구 결과의 의의에 대해 “우리의 방법은 AI 모델이 ‘자신이 모르는 것을 모른다는 사실’을 아는 것보다 더 잘 ‘자신이 모르는 것’을 알고 있다는 것을 보여준다”고 강조했다. 이는 AI 시스템의 자기 인식 능력에 대한 새로운 통찰을 제공하는 것으로, AI의 안전성과 신뢰성 향상에 중요한 기여를 할 수 있을 것으로 보인다.
그러나 이 연구에도 한계점은 존재한다. 연구팀은 현재의 방법이 모든 종류의 AI 오류를 탐지할 수 있는 것은 아니라고 밝혔다. 특히 AI 모델이 일관되게 잘못된 정보를 학습한 경우나, 체계적인 추론 오류를 보이는 경우에는 이 방법으로 탐지하기 어려울 수 있다. 또한, 이 방법을 실제 AI 시스템에 통합하는 과정에서 발생할 수 있는 기술적, 윤리적 문제들에 대한 추가적인 연구가 필요할 것으로 보인다.
이번 연구 결과는 국제 학술지 ‘네이처(Nature)’에 게재되어 학계의 주목을 받았다. 이는 AI 기술의 신뢰성 향상이라는 중요한 과제에 대한 의미 있는 진전으로 평가받고 있다. 앞으로 이 방법이 실제 AI 시스템에 어떻게 적용되고, 어떤 영향을 미칠지 주목할 필요가 있다.
옥스퍼드 대학의 환각 현상 대한 논문은 링크에서 확인할 수 있다.
본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기