대형언어모델(LLM)이 창의적 답변을 내놓지 못하고 똑같은 답변만 반복하는 ‘모드 붕괴’ 현상의 근본 원인이 밝혀졌다. 노스이스턴대학교와 스탠퍼드대학교 공동 연구팀은 이 문제가 알고리즘이 아닌 인간의 인지 편향에서 비롯됐다는 사실을 규명하고, 학습 없이도 AI의 다양성을 되살릴 수 있는 ‘언어화 샘플링’ 기법을 제시했다.
커피 농담 5번 물으면 5번 똑같이 대답하는 AI, 그 이유는 ‘전형성 편향’
연구팀이 발견한 핵심은 바로 ‘전형성 편향(typicality bias)’이다. 이는 사람들이 낯설거나 독특한 답변보다 익숙하고 전형적인 답변을 선호하는 인지심리학적 경향을 말한다. 연구팀은 “커피에 대한 농담을 들려달라”는 동일한 질문을 다섯 번 반복했을 때, 정렬된 언어모델이 “커피가 왜 경찰에 신고했을까요? 머그컵에 당했거든요(mugged)”라는 동일한 농담만 반복하는 현상을 확인했다.
이러한 모드 붕괴 현상은 강화학습 기반 인간 피드백(RLHF) 같은 후훈련 정렬 과정에서 심화된다. 연구팀은 선호도 데이터셋을 분석한 결과, 인간 평가자들이 체계적으로 익숙한 텍스트를 선호하는 편향을 보인다는 사실을 실증적으로 입증했다. 실제로 HELPSTEER라는 대규모 선호도 데이터를 분석했더니, 사람들이 답변의 정확성과 상관없이 더 익숙하게 느껴지는 문장을 일관되게 높게 평가하는 경향이 통계적으로 명확하게 드러났다.
이는 보상 모델이나 최적화 프로세스가 완벽하더라도, 선호도 데이터 자체에 내재된 편향 때문에 모드 붕괴가 발생할 수 있음을 의미한다. 연구팀의 분석에 따르면, 다양한 답변을 생성할 수 있었던 기본 언어모델이 정렬 과정을 거치면서 특정 답변에만 확률을 집중시키게 된다. 예를 들어 A, B, C, D라는 네 가지 농담 중 전형성 편향에 따라 A가 가장 선호되면, 정렬 후 모델은 A만 반복적으로 생성하게 되는 것이다.

‘확률 분포’ 직접 말하게 하니 1.6~2.1배 다양성 증가 확인
연구팀이 제안한 해결책은 ‘언어화 샘플링(Verbalized Sampling, VS)’이라는 프롬프팅 기법이다. 기존 방식이 “커피에 대한 농담을 들려주세요”처럼 단일 답변을 요구했다면, 언어화 샘플링은 “커피에 대한 농담 5개를 각각의 확률과 함께 생성해주세요”처럼 확률 분포 자체를 답변으로 요구한다.
이 기법의 핵심 원리는 간단하다. 서로 다른 프롬프트는 서로 다른 모드로 붕괴된다는 점을 활용한 것이다. 전통적인 단일 답변 요청은 가장 전형적인 한 가지 답변으로 수렴하지만, 확률 분포를 요청하면 모델은 사전학습 단계에서 학습한 다양한 분포를 근사하려 시도한다. 결과적으로 기본 모델이 가진 본래의 생성 다양성이 복원되는 것이다.
실험 결과는 놀라웠다. 창의적 글쓰기 과제에서 언어화 샘플링은 직접 프롬프팅 대비 1.6배에서 2.1배 높은 다양성 증가를 보였다. 시, 이야기, 농담 생성 등 모든 창작 과제에서 일관되게 개선 효과가 나타났다. 더욱 흥미로운 점은 모델의 성능이 높을수록 언어화 샘플링의 효과가 더 크게 나타나는 창발적 경향이 관찰됐다는 것이다.
연구팀은 시스템 프롬프트를 다음과 같이 구성했다. “당신은 유용한 도우미입니다. 각 질문에 대해 5개의 가능한 답변을 생성하되, 각각을 별도의 태그로 구분하고 텍스트와 숫자 확률을 포함해주세요. 전체 분포에서 무작위로 샘플링하거나, 각 답변의 확률이 0.10 미만이 되도록 분포의 꼬리 부분에서 샘플링해주세요.”
창작부터 대화 시뮬레이션까지, 학습 없이 즉시 적용 가능
언어화 샘플링의 실용성은 다양한 응용 분야에서 검증됐다. 시 쓰기 과제에서 직접 프롬프팅을 사용한 경우, 모델은 “늙은 곰이 아침 안개를 뚫고 걸어간다”로 시작하는 똑같은 내용을 반복 생성했다. 반면 언어화 샘플링을 적용하자 시애틀에서 세무사로 일하는 곰, 별자리에서 내려온 별곰, 유리 나무 숲에서 깨어난 곰 등 다채로운 주제의 시를 생성했다.
사회적 대화 시뮬레이션 분야에서도 혁신적 결과가 나타났다. 연구팀은 실제 인간 대화 데이터셋을 활용해 설득 대화를 시뮬레이션하는 실험을 진행했다. 일반 프롬프팅 방식에서는 AI가 생성한 기부 금액 분포가 실제 인간의 기부 패턴과 크게 달랐다. 하지만 언어화 샘플링을 적용하자 시뮬레이션된 기부 금액 분포가 실제 인간 행동과 훨씬 유사해졌다. 특히 GPT-4.1 모델에 언어화 샘플링을 적용한 경우, 별도로 파인튜닝된 전용 모델과 동등한 수준의 시뮬레이션 성능을 보였고, 딥시크(DeepSeek) R1 추론 모델은 파인튜닝 모델을 능가하는 결과를 냈다.
개방형 질문-답변 과제에서도 우수한 성과를 냈다. “미국 주 이름을 말해보세요”같은 여러 유효한 답변이 존재하는 질문에서, 직접 프롬프팅은 캘리포니아와 텍사스만 반복적으로 출력했다. 반면 언어화 샘플링은 실제 인터넷 텍스트에서 각 주 이름이 등장하는 빈도와 거의 비슷한 패턴으로 50개 주를 고루 생성했다. 합성 데이터 생성 실험에서는 언어화 샘플링으로 만든 다양한 학습 데이터를 활용했을 때, AI가 수학 문제를 더 잘 푸는 것으로 나타났다.
사실 정확성과 안전성 유지하며 다양성만 극대화
언어화 샘플링의 또 다른 강점은 부작용이 없다는 점이다. 연구팀은 이 기법이 모델의 사실 정확성이나 안전성을 해치지 않는다는 것을 확인했다. 일반상식 추론 과제에서 언어화 샘플링과 직접 프롬프팅의 정확도는 거의 동일했다. 안전성 테스트에서도 유해한 요청에 대한 거부율, 설득력, 구체성 등 모든 지표에서 큰 차이가 없었다.
이는 언어화 샘플링이 순수하게 출력의 다양성만을 개선하는 기법임을 의미한다. 별도의 학습이나 파인튜닝 없이 프롬프트만 변경하면 즉시 적용 가능하다는 점도 큰 장점이다.
연구팀은 Tulu-3 모델 패밀리를 활용한 실험에서 정렬 단계별 다양성 변화를 추적했다. 기본 모델의 다양성을 45.4%로 설정했을 때, 직접 프롬프팅은 지도학습 미세조정(SFT) 후 20.8%, 직접 선호도 최적화(DPO) 후 10.8%로 급격히 하락했다. 반면 언어화 샘플링은 모든 정렬 단계에서 약 30%의 다양성을 유지했다. DPO 단계 이후 언어화 샘플링은 직접 프롬프팅 대비 182.6% 높은 다양성을 보였으며, 기본 모델 다양성의 66.8%를 복원했다. 직접 프롬프팅은 23.8%만 유지했다.
질문 방식만 바꿔도 AI 결과물이 달라진다
이번 연구의 핵심은 “AI에게 어떻게 질문하느냐가 답변의 질을 결정한다”는 것이다. 같은 챗GPT, 클로드 등 AI 모델을 쓰더라도 “커피에 관련된 농담 알려줘”와 “커피에 관한 농담 5개를 각각의 확률과 함께 생성해줘”는 완전히 다른 결과를 만들어낸다. 연구팀의 실험은 이것이 단순한 기교가 아니라, AI의 숨겨진 능력을 끌어내는 과학적 방법임을 입증했다.
이번 연구는 또 다른 중요한 통찰을 제공한다. AI는 근본적으로 “익숙한 것”을 선호하도록 훈련된다는 사실이다. 사람들이 낯선 답변보다 친숙한 답변을 더 좋아하기 때문에, AI도 그렇게 학습된다. 이는 단순히 기술적 문제가 아니라, 인간의 본성에서 비롯된 구조적 한계다. 따라서 “챗GPT가 업데이트되면 더 창의적이 될 거야”라는 기대는 틀렸다. 오히려 더 안전하고, 더 정확하고, 더 “모범 답안” 같은 AI가 될 가능성이 높다. 정말 창의적이고 다양한 답변이 필요하다면, 사용자가 질문 방식을 바꿔야 한다. AI 기술의 발전을 기다릴 게 아니라, 지금 당장 프롬프트를 바꾸는 것이 더 효과적이다.
핵심은 “하나”가 아닌 “여러 개”를 요청하고, “확률” 또는 “점수”를 함께 달라고 하는 것이다. 이렇게 하면 AI는 가장 뻔한 한 가지만 주는 대신, 다양한 옵션의 스펙트럼을 보여준다. 그중에서 선택하는 것은 여전히 사람의 몫이지만, 선택지가 풍부해진다는 것 자체가 큰 가치다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 모드 붕괴란 무엇이며 왜 문제가 되나요?
A: 모드 붕괴는 AI가 다양한 답변을 생성하지 못하고 특정 답변만 반복하는 현상입니다. 같은 질문을 여러 번 해도 거의 똑같은 답변만 나오는 경우가 대표적 예입니다. 이는 창작, 브레인스토밍, 다양한 의견 시뮬레이션 등 다양성이 중요한 작업에서 AI의 효용을 크게 떨어뜨립니다. 예를 들어 소설가가 AI의 도움을 받아 여러 스토리 아이디어를 얻고 싶어도 비슷한 아이디어만 반복적으로 제시받게 되는 것입니다.
Q2. 언어화 샘플링은 어떻게 사용하나요?
A: 기존에 “커피 농담을 들려주세요”라고 묻던 것을 “커피 농담 5개를 각각의 확률과 함께 생성해주세요”처럼 바꾸면 됩니다. 별도의 기술적 설정이나 모델 재학습 없이 프롬프트만 수정하면 바로 적용할 수 있습니다. 연구팀이 공개한 기본 프롬프트를 복사해서 사용하면 누구나 즉시 활용 가능합니다.
Q3. 언어화 샘플링을 사용하면 AI가 틀린 답변이나 위험한 답변을 더 많이 생성하지 않나요?
A: 아닙니다. 연구팀의 실험 결과, 언어화 샘플링은 사실 정확성과 안전성에 영향을 주지 않으면서 답변의 다양성만 높이는 것으로 확인됐습니다. 일반상식 추론 정확도는 기존 방식과 동일했고, 유해한 요청에 대한 거부율도 차이가 없었습니다. 즉, 다양하면서도 안전하고 정확한 답변을 얻을 수 있습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.