LLM, 실수할 때도 정답을 알고 있다...내부 표현 분석으로 밝혀진 흥미로운 발견

LLMS KNOW MORE THAN THEY SHOW: ON THE INTRINSIC REPRESENTATION OF LLM HALLUCINATIONS

대형 언어모델(Large Language Model, LLM)이 잘못된 답변을 생성할 때도 내부적으로는 정답을 알고 있다는 흥미로운 연구 결과가 발표됐다. 테크니온 공대와 구글 리서치, 애플 연구진이 공동으로 수행한 이번 연구는 LLM의 내부 표현(Internal Representation)을 심층 분석해 모델의 오류 생성 메커니즘에 대한 새로운 통찰을 제시했다.

LLM의 정답 토큰에 집중된 진실성 정보

연구진은 LLM이 생성하는 긴 응답 내에서 정답과 직접적으로 관련된 토큰들에 진실성 정보가 집중되어 있다는 중요한 발견을 했다. 예를 들어 “코네티컷 주의 수도는 하트포드(Hartford)입니다. 이 도시는 1635년에 설립되었으며…”라는 답변에서 ‘Hartford’라는 토큰이 가장 강력한 진실성 신호를 포함하고 있다는 것이다. 이는 기존 연구들이 주로 응답의 마지막 토큰이나 전체 토큰의 평균값을 분석하던 방식과는 차별화된다.

이러한 발견을 바탕으로 연구진은 LLM의 오류를 더 정확하게 탐지할 수 있는 새로운 방법론을 개발했다. 특히 정답 토큰에 초점을 맞춘 프로빙(Probing) 기법을 통해 기존의 오류 탐지 방식들보다 훨씬 높은 성능을 달성할 수 있었다.

다양한 유형의 오류 패턴 분석

연구진은 LLM의 오류를 체계적으로 분석하기 위해 동일한 질문에 대해 여러 번의 응답을 생성하도록 했다. 이를 통해 LLM의 오류가 다음과 같은 패턴을 보인다는 것을 발견했다.

첫째, 모델이 대부분 정확한 답변을 하지만 가끔 실수하는 경우다. 이는 모델이 올바른 정보를 가지고 있으나 샘플링 과정에서 간혹 오류가 발생하는 것으로 해석된다. 둘째, 모델이 지속적으로 틀린 답변을 하면서도 때때로 정답을 생성하는 경우다. 이는 모델이 정답 정보를 보유하고 있음에도 일관되게 잘못된 선택을 하고 있음을 시사한다. 셋째, 모델이 다양한 오답들을 무작위로 생성하는 경우로, 이는 모델이 해당 질문에 대해 높은 불확실성을 가지고 있음을 나타낸다.

내부 표현과 외부 행동의 불일치 발견

연구의 가장 주목할 만한 발견은 모델의 내부 표현과 외부 행동 사이의 불일치다. 연구진은 모델이 지속적으로 오답을 생성하는 경우에도 내부 표현에는 정답이 인코딩되어 있다는 사실을 확인했다. 이는 모델이 알고 있는 것과 실제로 생성하는 것 사이에 상당한 간극이 존재함을 보여준다.

예를 들어, 특정 질문에 대해 모델이 30번 중 29번은 틀린 답변을 생성하더라도, 내부 표현을 분석해보면 정답에 대한 정보가 명확히 존재한다는 것이 확인됐다. 이러한 현상은 모델의 생성 과정에서 진실성보다 다른 요인들이 더 큰 영향을 미칠 수 있음을 시사한다.