AI 판사의 평균 오류율은 5%도 안 됐다. 그런데 같은 데이터를 문서 한 건 단위로 쪼개자 절반이 무너졌다. 인도 BITS 필라니(BITS Pilani)의 마난 굽타(Manan Gupta)와 드루브 쿠마르(Dhruv Kumar) 연구진이 2026년 4월 공개한 논문 ‘LLM 판사 신뢰도 진단(Diagnosing LLM Judge Reliability)’은 챗GPT(ChatGPT), 라마(LLaMA), 큐원(Qwen), 미스트랄(Mistral) 4개 모델이 요약문을 채점할 때 ‘평균은 깨끗한데 문서별로는 위태로운’ 패턴을 정량적으로 드러냈다. 어떤 LLM 판사를 쓰느냐보다 무엇을 평가하느냐가 신뢰도를 좌우한다는 결론은, 자동 평가에 의존이 늘어나는 산업 전반에 곱씹을 만한 신호를 던진다.
평균 0.8%~4.1%가 가린 문서 절반의 자기모순
LLM 판사 신뢰도는 평균값으로 보면 멀쩡해 보이지만 문서 단위로 보면 절반 가까이가 자기모순을 일으킨다. 논문이 보고한 4개 모델의 전체 평균 위반율은 0.8%에서 4.1% 사이로, 어느 실무자가 봐도 ‘안심해도 되는 수준’이다. 그러나 30개 문서로 쪼개 다시 살피자 모델에 따라 33%에서 67%의 문서가 적어도 한 번씩은 추이성 위반(Transitivity Violation)을 일으켰다.
추이성 위반이란 LLM 판사가 ‘A 요약이 B보다 낫다, B는 C보다 낫다, C는 다시 A보다 낫다’고 판단하는 모순 상태를 가리키는 용어다. 가위바위보처럼 순환이 생기는 셈이다. 평균치만 보면 깨끗한 운동장이지만, 발을 디뎌보면 곳곳에 함정이 숨어 있는 구조와 같다. 어느 한 문서를 채점받는 입장에서는 이 평균이 위로가 되지 않는다. 내가 받은 점수가 그 절반에 속할 가능성을 평균은 가려버린다.
미스트랄(Mistral)이 드러낸 30.4%, 한 문서가 망가지는 순간
문서 한 건에서 모순이 가장 심했던 사례는 미스트랄 스몰(Mistral-Small-3.1)이 일관성(Coherence)을 채점한 어느 문서로, 가능한 모든 비교 조합 중 30.4%가 순환 모순을 보였다. 같은 모델, 같은 평가 기준인데도 문서가 바뀌면 결과가 흔들린다는 뜻이다. 시스템 8개를 가지고 한 문서에 대한 요약 품질을 비교했을 때, 거의 셋 중 하나꼴로 ‘A가 B보다 좋고 B가 C보다 좋은데 C가 다시 A보다 좋다’는 식의 답이 나왔다.
연구진은 이 모순을 사후에 정리해 보겠다며 최소 피드백 호 집합(MFAS, Minimum Feedback Arc Set)이라는 알고리즘으로 순위를 다시 짜봤다. 인간이 매긴 최종 순위와 더 가까워질지 검증한 것이다. 결과는 무의미했다. 5가지 순위 산정 방식 중 어느 것도 일관되게 우위를 보이지 못했다. 전체 그래프는 거의 깨끗한데 일부 문서만 비뚤어진 상황이라, 사후 보정으로 손볼 여지가 거의 없었다는 의미다. 연구진은 “추이성 분석의 가치는 전체 순위를 고치는 데 있는 게 아니라, 신뢰할 수 없는 문서를 골라내는 데 있다”고 못 박았다.
예측 집합 폭, 1,918건이 증명한 신뢰도 신호
컨포멀 예측 집합(Conformal Prediction Set)이란 LLM 판사가 매긴 점수에 통계적으로 보장된 오차 범위를 함께 붙여주는 기법으로, 그 범위가 좁으면 믿을 만하고 넓으면 의심하라는 신호로 쓸 수 있다. 1점부터 5점까지의 리커트 척도(Likert Scale)에서 판사가 4점을 줬다면, 컨포멀 기법은 ‘실제 인간 점수가 3, 4, 5점 중 하나일 것’이라는 식으로 후보 집합을 뽑아낸다. 후보가 1개면 거의 확실, 5개면 사실상 모르겠다는 뜻이다.
연구진이 4개 모델, 4개 기준에 걸쳐 1,918건을 모아 분석한 결과, 예측 집합 폭과 실제 판사의 오차 사이에는 스피어만 상관계수 +0.576이 나왔다. p값은 10의 -100승보다 작아 우연일 확률이 사실상 0이다. 더 흥미로운 점은 다른 모델끼리 같은 문서를 어렵다고 짚어내는 경향이 있었다는 부분이다. GPT-4o-미니(GPT-4o-mini)와 미스트랄이 유창성(Fluency)을 채점한 결과의 폭 일치도는 +0.81에 달했다. 모델 노이즈가 아니라 문서 자체의 난이도가 폭을 결정한다는 뜻이다. 어떤 문서가 까다로우면, 어떤 LLM에게 물어봐도 비슷하게 어렵다고 답한다.
모델보다 기준이 좌우한다, 관련성·일관성은 신뢰 정합성·유창성은 의심
두 가지 진단법이 똑같은 결론으로 모인 지점은 ‘LLM 판사 신뢰도는 모델보다 평가 기준에 더 크게 좌우된다’는 것이다. 관련성(Relevance)은 평균 예측 집합 폭이 약 3.0으로 가장 좁았고, 일관성은 약 3.9로 중간 수준이었다. 반면 유창성과 정합성(Consistency)은 평균 폭이 4.9에 달해 사실상 5점 만점 중 5개 후보를 다 내놓는 수준, 즉 ‘모르겠다’에 가까웠다.

그림1. 모델보다 평가 기준이 신뢰도를 좌우한다는 사실을 보여주는 평균 예측 집합 크기 히트맵
이유는 데이터 특성에 있다. SummEval 데이터셋의 신경망 요약문은 대부분 이미 충분히 매끄럽게 작성돼 있어 유창성에서 차이를 가르기 어렵다. 정합성은 원문과의 사실관계를 따져야 해서 24B에서 72B 규모의 모델이 안정적으로 처리하지 못했다. 반대로 관련성은 ‘핵심 정보가 들어 있나’라는 비교적 단순한 판단이라 모델 간 일치도가 높았다. 실무자에게 주는 시사점은 직설적이다. 마케팅 카피를 LLM에 채점시킬 때 ‘핵심 메시지가 살아있는가(관련성)’라는 질문은 받아 적어도 되지만, ‘문장이 매끄러운가(유창성)’ 또는 ‘사실관계가 맞는가(정합성)’는 한 번 더 사람이 점검해야 한다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. LLM-as-Judge가 무엇인가요?
LLM-as-Judge는 사람이 일일이 채점하던 자연어 결과물을 챗GPT 같은 대형 언어모델에게 대신 점수를 매기게 하는 자동 평가 방식입니다. 인건비를 줄이고 빠르게 비교 분석을 할 수 있어 최근 AI 업계에서 표준처럼 쓰이고 있습니다.
Q2. 추이성 위반(3-cycle violation)이 왜 문제인가요?
추이성 위반은 ‘A가 B보다 낫고, B가 C보다 나은데, C가 다시 A보다 낫다’는 식의 자기모순 판단을 뜻합니다. 한 번이라도 이런 모순이 생기면 그 문서에 대한 LLM 판사의 평가 결과를 그대로 받아쓰기 어렵기 때문에, 평균값 뒤에 숨은 위험 신호로 봐야 합니다.
Q3. 예측 집합 폭이 작으면 어떻게 활용할 수 있나요?
예측 집합 폭이 1~2개로 좁으면 LLM 판사가 그 문서에 대해 비교적 확신을 갖고 있다는 뜻이므로 그대로 결과를 받아도 됩니다. 반대로 폭이 4~5개로 넓다면 사실상 ‘잘 모르겠다’는 신호이므로, 사람이 한 번 더 검토하도록 워크플로우에 포함시키는 것이 안전합니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations (Manan Gupta, Dhruv Kumar, BITS Pilani, 2026.04)
이미지 출처: AI 생성 콘텐츠
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



![[AI 트렌드] 클릭 한 번으로 '낙서풍·치비·미니미'… 챗GPT 이미지 스타일 프리셋이 바꾼 풍경](https://aimatters.co.kr/wp-content/uploads/2026/05/ChatGPT-image_1.jpg)



