Search

“이건 사람한테 물어봐야겠다”… AI가 스스로 한계 인정하는 법 배웠다

"이건 사람한테 물어봐야겠다"… AI가 스스로 한계 인정하는 법 배웠다
이미지 출처: 이디오그램 생성

미국 광고 기술 회사 제프르와 이스라엘 테크니온 공과대학 연구팀이 AI가 자신의 판단이 틀릴 가능성을 스스로 예측해 사람에게 도움을 청하는 시스템을 개발했다. 해당 논문에 따르면, 이 기술은 AI가 확신 있는 것만 처리하고, 헷갈리는 건 인간 전문가에게 넘김으로써 정확도를 높이면서도 비용을 대폭 줄인다. 



GPT-4o 미니, 사람 도움 요청 절반으로 줄였는데 정확도는 오히려 상승 

연구팀이 만든 시스템의 핵심은 간단하다. AI가 콘텐츠를 검열할 때마다 “내 판단이 맞을 확률”을 동시에 계산한다. 이 확률이 낮으면 자동으로 사람 검토자에게 넘기고, 높으면 AI가 직접 처리한다. 

오픈AI의 검열 데이터로 실험한 결과, GPT-4o 미니 모델은 사람에게 넘기는 비율을 37%에서 16%로 절반 이상 줄였다. 놀라운 건 정확도가 떨어진 게 아니라 오히려 81%에서 94%로 올랐다는 점이다. 즉, AI가 자신 있는 것만 골라서 처리하니 실수가 줄어든 것이다. 

비용 절감 효과도 컸다. GPT-4o 미니는 운영 비용이 132달러에서 38달러로 71% 감소했다. 구글의 제미나 2.0 모델도 74달러에서 41달러로 41% 줄었다. 여기서 비용은 사람 검토자의 인건비와 AI 실수로 인한 예상 손실을 합친 금액이다.



AI가 보내는 네 가지 신호… “헷갈려요” 인정하는 순간 포착 

이 시스템은 AI가 내보내는 네 가지 신호를 종합 분석한다.

첫 번째는 AI가 답을 선택할 때 각 선택지에 부여하는 확률이다. 예를 들어 “유해함” 70%, “무해함” 25%라면 꽤 확신하는 것이지만, “유해함” 52%, “무해함” 48%라면 헷갈리는 것이다. 

두 번째는 AI가 스스로 매기는 신뢰도 점수다. AI에게 “당신 답이 맞을 확률이 몇 퍼센트인가요?”라고 물으면 0~100점으로 답하게 한다. 또 “매우 낮음, 낮음, 보통, 높음, 매우 높음” 중 하나를 선택하게도 한다. 

세 번째는 AI의 중간 사고 과정을 분석하는 것이다. AI가 답을 내기까지의 추론 과정을 단계별로 살펴보며 얼마나 일관되고 자신 있게 말하는지 측정한다. 다만 이 방식은 콘텐츠 검열에서는 오히려 AI를 과신하게 만들어 최종 버전에서는 제외됐다. 

네 번째가 이번 연구의 핵심 혁신이다. AI가 단순히 “확신 없음”이라고만 말하는 게 아니라, 그 이유를 두 가지로 구분한다. “정보가 부족해서 모르겠어요”와 “규정 자체가 애매해서 모르겠어요”로 나눈다.



“정보 부족”과 “규칙 애매함” 구분… 담당자 배정까지 자동화 

AI가 이유를 구분하는 건 실무에서 큰 의미가 있다. “정보가 부족해서 모르겠다”고 하면 경험 많은 상급 검토자에게 배정한다. 예를 들어 동영상 화면이 흐릿하거나, 맥락 정보가 빠져있어서 판단하기 어려운 경우다. 

반면 “규칙 자체가 애매해서 모르겠다”고 하면 검열 가이드라인을 업데이트하거나 AI 재교육의 신호로 활용한다. 예를 들어 어떤 표현이 지역에 따라 욕인지 아닌지 기준이 다른 경우, 회사 규정에 명확한 기준이 없는 경우다. 

실제로 구글의 제미나이 모델에서 이 “이유 구분” 기능을 제거하자 비용이 눈에 띄게 올랐다. 이는 AI가 단순히 “잘 모르겠다”고만 하는 것보다, “왜 모르는지”까지 알려주는 게 훨씬 효율적임을 보여준다.



12개 언어 동영상 검열까지 성공… 텍스트 넘어 영상·음성도 분석 

연구팀은 두 가지 데이터로 시스템을 검증했다.

첫째는 영어 텍스트 1,680개를 혐오 발언, 자해, 성적 콘텐츠, 폭력 등으로 분류하는 작업이다.

둘째는 12개 언어로 된 짧은 동영상 1,500개를 분석하는 작업이다. 동영상은 텍스트, 썸네일 이미지, 음성을 문자로 바꾼 대본, 영상 장면 등 네 가지 정보를 모두 활용했다.

영어 텍스트 검열에서는 모든 AI 모델이 기존 방식보다 좋은 성적을 냈다. GPT-4.1 미니와 GPT-4o의 정확도가 각각 88.79%에서 91.93%, 84.41%에서 91.35%로 올랐다. 

더 복잡한 동영상 검열에서는 모델마다 차이가 있었다. GPT-4o 미니는 정확도가 85.71%에서 87.34%로, GPT-4o는 88.05%에서 91.42%로 향상됐다. 특히 제미나이 2.0은 69.85%에서 85.47%로 급등했다. 다만 중국의 큐웬이나 메타의 라마 같은 일부 오픈소스 모델은 전체 평균 정확도는 오르고 개별 케이스 정확도는 떨어지는 등 혼재된 결과를 보였다.



특별한 수학 기법으로 학습… 드물게 나오는 실수 케이스 집중 분석 

이 시스템은 “리지 회귀”라는 통계 기법으로 학습한다. 복잡해 보이지만 원리는 단순하다. AI의 여러 신호들이 서로 비슷한 정보를 담고 있을 수 있는데, 이를 적절히 조절해서 중복을 피하고 안정적인 예측을 만든다. 

가장 큰 어려움은 데이터 불균형이었다. AI의 판단은 보통 80퍼가 맞기 때문에 실수 상황은 20퍼에 불가하다. 따라서 AI가 “대부분 맞으니까 항상 맞다고 예측하자”는 식으로 학습할 위험이 있다. 

연구팀은 이를 해결하기 위해 맞는 케이스를 적절히 줄이고, 드문 “확신 없음” 케이스는 모두 유지했다. 또한 실수의 비용을 더 높게 설정해서 시스템이 실수를 잡는 데 집중하도록 만들었다. 최종적으로 동영상 데이터는 훈련용 800개와 테스트용 300개로, 텍스트 데이터는 훈련용 3,500개와 테스트용 900개로 나눠 평가했다.



각 신호의 기여도 실험… 모든 신호가 서로 보완하며 작동 

연구팀은 네 가지 신호 중 하나씩 제거하면서 각각의 중요도를 측정했다. 결과는 명확했다. 어떤 신호를 제거하더라도 성능이 떨어졌다. 이는 네 가지 신호가 각자 다른 측면을 보여주며 서로 보완한다는 뜻이다. 

영어 텍스트 검열에서는 AI가 각 답변 선택지에 부여하는 확률 신호를 제거했을 때 비용이 가장 많이 올랐다. 이는 AI의 내부 확률 계산이 가장 강력한 단일 신호임을 보여준다. 

AI가 스스로 매기는 신뢰도 점수를 제거하면 비용이 약 5~15% 올랐다. 이는 AI의 자기 평가가 확률 계산으로는 잡히지 않는 추가 정보를 제공함을 의미한다. 

“정보 부족”과 “규칙 애매함”을 구분하는 신호는 단순한 예/아니오 정보인데도 비용 절감에 확실히 기여했다. 특히 제미나이 모델들에서 이 신호를 제거하자 비용이 뚜렷하게 증가했다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 

Q1. 이 기술은 어떤 AI에 적용할 수 있나요? 

A. GPT-4o, 구글 제미나이, 메타 라마, 중국 큐웬 등 대부분의 대형 AI 모델에 적용 가능합니다. AI가 각 답변에 부여하는 확률 정보를 제공하기만 하면 되고, AI 내부 구조를 들여다볼 필요가 없어서 범용적입니다. 오픈소스와 상용 서비스 모두 사용할 수 있습니다. 

Q2. AI가 이유를 구분하는 게 왜 중요한가요? 

A. “정보가 부족해서 모른다”는 건 경험 많은 사람이 봐야 하고, “규칙이 애매해서 모른다”는 건 규칙을 고치거나 AI를 재교육해야 합니다. 이렇게 이유를 알면 적재적소에 자원을 배치하고 시스템을 빠르게 개선할 수 있습니다. 실제로 이 기능을 빼면 비용이 확실히 올라갑니다. 

Q3. 콘텐츠 검열 외에 다른 곳에도 쓸 수 있나요? 

A. 연구팀은 금융 사기 탐지, 법규 준수 검토, 의료 진단 보조 등 실수 비용이 큰 모든 분야에 적용 가능하다고 밝혔습니다. AI가 확신 없을 때 사람에게 도움을 청하는 구조는 사람과 AI가 협업하는 모든 상황에서 유용합니다. 



기사에 인용된 논문 원문은 arXiv에서 확인할 수 있다. 

논문명: LLM Performance Predictors: Learning When to Escalate in Hybrid Human-AI Moderation Systems 

이미지 출처: 이디오그램 생성 

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다. 




"이건 사람한테 물어봐야겠다"… AI가 스스로 한계 인정하는 법 배웠다 - AI매터스