Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
기존 척도의 한계점 발견
인공지능(AI) 기술의 발전에 따라 대규모 언어 모델(LLM)의 설명 능력이 주목받고 있다. 그러나 이러한 설명이 얼마나 모델의 실제 추론 과정을 반영하는지, 즉 ‘충실도’를 측정하는 것은 여전히 큰 과제로 남아있다. 최근 연구진은 기존의 LLM 설명 충실도 측정 방식에 중요한 한계가 있음을 발견했다.
기존의 대표적인 방식인 대조 테스트(Counterfactual Test, CT)는 모델 예측의 이진적 변화만을 고려했다. 즉, 입력에 변화를 주었을 때 모델의 최상위 예측 라벨이 바뀌는지만을 확인했다. 그러나 이는 설명의 실제 충실도를 정확히 반영하지 못한다는 문제가 있었다.
예를 들어, CT 방식에서는 어떤 클래스의 예측 확률이 1%에서 49%로 크게 변화해도, 여전히 최상위 예측이 아니라면 ‘관련 없음’으로 처리된다. 반면 49%에서 51%로의 작은 변화가 최상위 예측을 바꾸면 ‘관련 있음’으로 간주된다. 이는 모델의 예측 변화를 정확히 포착하지 못하는 한계를 보여준다.
새로운 충실도 척도 제안
이러한 한계를 극복하기 위해 연구팀은 ‘상관적 설명 충실도'(Correlational Explanatory Faithfulness, CEF)라는 새로운 척도를 제안했다. CEF는 두 가지 주요 요소를 고려한다.
- 입력 특성의 영향 정도: 모델 예측에 미치는 실제 영향력을 연속적인 값으로 측정
- 설명에서의 언급 빈도: 영향력 있는 특성이 설명에서 더 자주 언급되는지 확인
CEF를 기반으로 한 ‘상관적 대조 테스트'(Correlational Counterfactual Test, CCT)도 함께 소개되었다. CCT는 모델 예측의 전체 확률 분포 변화를 측정하여 입력 변화의 영향을 더 정확히 포착한다. 구체적으로, 총 변동 거리(Total Variation Distance, TVD)를 사용하여 원래 예측과 변경된 예측 사이의 차이를 계산한다.
이러한 접근 방식은 단순히 설명이 관련 요소를 언급하는지 여부뿐만 아니라, 중요한 요소를 덜 중요한 요소보다 더 자주 언급하는지도 테스트할 수 있게 해준다. 이는 유용한 설명의 핵심 특성을 더 잘 반영한다고 볼 수 있다.
실험 설계 및 방법
연구팀은 새로운 척도의 효과를 검증하기 위해 Llama2 모델 제품군(7B, 13B, 70B 파라미터 모델)을 대상으로 실험을 진행했다. 세 가지 자연어 처리 작업에서 CCT를 적용했는데, 구체적으로 다음과 같다.
- e-SNLI: 자연어 추론 작업
- ComVE: 상식 검증 작업
- ECQA: 상식 질문 응답 작업
각 작업에서 모델은 퓨샷 프롬프팅 방식으로 예측과 설명을 생성했다. 연구진은 두 가지 프롬프팅 전략을 비교했다.
- 예측 후 설명(Predict-then-Explain, PE): 모델이 먼저 예측을 하고 그 후에 설명을 생성
- 설명 후 예측(Explain-then-Predict, EP): 모델이 먼저 설명을 생성하고 그 후에 예측을 수행
실험 과정에서는 원본 입력에 무작위로 형용사나 부사를 삽입하는 방식으로 대조 개입을 수행했다. 이후 모델의 예측 변화와 설명에서의 언급 여부를 분석했다.
주요 실험 결과
실험 결과, CCT가 기존 CT에서 놓쳤던 충실도의 중요한 측면들을 포착할 수 있음이 확인되었다. 주요 발견 사항은 다음과 같다.
- 데이터셋별 차이: e-SNLI 데이터셋에서 모델 설명의 충실도가 가장 높았고, ECQA와 ComVE 데이터셋에서는 상대적으로 낮았다. 이는 작업의 특성이나 훈련 데이터의 특성이 설명의 충실도에 영향을 미칠 수 있음을 시사한다.
- 모델 크기의 영향: 대체로 더 큰 모델(Llama2 70B)이 더 충실한 설명을 생성하는 것으로 나타났다. 이는 모델의 규모가 커질수록 설명 능력도 향상될 수 있음을 보여준다.
- 프롬프팅 전략의 영향: PE 방식이 EP 방식보다 대체로 더 높은 충실도를 보였다. 이는 모델이 예측을 먼저 할 때 더 정확한 설명을 제공할 수 있음을 암시한다.
- CT와 CCT의 차이: ECQA 데이터셋의 경우, CT 측정에서는 낮은 불충실도(높은 충실도)를 보였지만, CCT 측정에서는 낮은 충실도를 보였다. 이는 ECQA 설명이 입력의 많은 부분을 반복하는 경향이 있어, 중요한 요소와 그렇지 않은 요소를 잘 구분하지 못한다는 것을 CCT가 포착했기 때문이다.
연구의 의의와 한계
이번 연구는 LLM 설명의 충실도 측정에 중요한 진전을 이뤘다고 평가된다. CCT는 기존 방식보다 더 세밀하고 정확하게 설명의 질을 평가할 수 있는 도구를 제공한다. 이는 AI 모델의 설명 가능성과 신뢰성 향상에 기여할 것으로 기대된다.
특히 의료, 법률 등 고위험 분야에서 AI 활용이 늘어남에 따라, 모델 설명의 충실도를 정확히 측정하는 것이 더욱 중요해지고 있다. CCT와 같은 개선된 척도는 이러한 요구에 부응할 수 있는 유용한 도구가 될 수 있다.
그러나 이 연구에도 몇 가지 한계점이 있다. 첫째, 실험에 사용된 대조 개입 방식이 단일 단어 삽입에 국한되어 있어, 다른 유형의 변화에 대한 모델의 반응을 완전히 포착하지 못할 수 있다. 둘째, 의미적 유사어를 고려하지 않아 일부 설명의 충실도를 부정확하게 평가했을 가능성이 있다.
향후 연구 방향
연구진은 이번 연구를 바탕으로 다음과 같은 향후 연구 방향을 제시했다.
- 다양한 모델 및 작업에 적용: CCT를 지시어 미세조정 모델이나 다른 유형의 LLM에 적용하여 그 효과를 검증할 필요가 있다.
- 설명 생성 전략 연구: 질문 분해와 같은 다양한 설명 생성 전략이 충실도에 미치는 영향을 CCT를 통해 분석할 수 있다.
- 의미적 분석 강화: 단순한 단어 매칭을 넘어, 설명의 의미적 사용을 고려한 더 정교한 분석 방법을 개발할 필요가 있다.
- 실제 응용 연구: 고위험 분야에서 CCT를 적용하여 실제 상황에서의 유용성을 검증해야 한다.
결론적으로, 이 연구는 LLM의 설명 충실도 측정에 있어 중요한 진전을 이루었다. 앞으로 CCT와 같은 개선된 척도를 통해 AI 모델의 설명 능력을 더욱 정확히 평가하고 개선할 수 있을 것으로 기대된다. 이는 궁극적으로 AI 시스템의 투명성과 신뢰성 향상에 기여할 것이다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기