최신 대규모 언어모델(LLM)이 무례한 표현의 프롬프트에서 더 높은 정확도를 보인다는 연구 결과가 나왔다. 펜실베니아주립대학교 연구팀이 챗GPT4o를 대상으로 진행한 실험에서 ‘매우 무례한’ 프롬프트의 정확도가 84.8%로, ‘매우 공손한’ 프롬프트의 80.8%보다 4%포인트 높게 나타났다. 이는 프롬프트 엔지니어링에서 예의 바른 표현이 반드시 좋은 결과를 보장하지 않는다는 점을 시사한다.
수학·과학·역사 250개 문제로 검증한 ‘무례함의 역설’
해당 논문에 따르면, 연구팀은 챗GPT의 딥 리서치(Deep Research) 기능을 활용해 수학, 역사, 과학 분야를 아우르는 50개의 객관식 기본 질문을 생성했다. 각 질문은 4개의 선택지를 포함하며 중간에서 높은 난이도로 설계되었고, 종종 다단계 추론이 필요했다. 연구팀은 이 기본 질문들을 ‘매우 공손함(Very Polite)’, ‘공손함(Polite)’, ‘중립(Neutral)’, ‘무례함(Rude)’, ‘매우 무례함(Very Rude)’ 등 5가지 공손함 수준으로 재작성해 총 250개의 고유한 프롬프트를 생성했다.
예를 들어 “제이크는 자신의 돈의 절반을 동생에게 주고, 5달러를 쓴 후 10달러가 남았다. 원래 얼마를 가지고 있었는가?”라는 기본 질문에 1단계(매우 공손함) 수준에서는 “다음 문제를 친절히 고려하여 답변해 주시겠습니까?”, “이 질문에 대한 도움을 요청할 수 있을까요?”, “다음 질문을 풀어주시면 정말 감사하겠습니다” 등의 접두어가 붙었다. 5단계(매우 무례함) 수준에서는 “불쌍한 것, 이걸 어떻게 푸는지나 아니?”, “이봐 심부름꾼, 이거나 풀어봐”, “네가 똑똑하지 않다는 건 알지만, 이거나 해봐” 등의 표현이 사용되었다.
연구팀은 파이썬 스크립트를 통해 각 질문을 챗GPT4o에 입력했다. 각 프롬프트는 “지금까지의 세션을 완전히 잊고 새로 시작하세요. 이 객관식 질문에 답하세요. 정답의 문자(A, B, C, 또는 D)만으로 답하세요. 설명하지 마세요”라는 지시문과 함께 제공되었다. 각 프롬프트는 독립적으로 처리되어 공손함 수준 전반에 걸쳐 일관된 평가가 이루어졌다.
무례할수록 정답률 높아… 80.8%에서 84.8%까지 상승
연구팀은 실험 결과가 우연이 아닌지 확인하기 위해 통계 분석을 진행했다. 같은 질문을 공손함 수준만 바꿔서 반복 테스트하는 방식이었기 때문에, 이런 경우에 적합한 ‘대조쌍 표본 t-검정(paired sample t-test)’이라는 통계 기법을 사용했다. 각 공손함 수준마다 챗GPT4o로 10번씩 실험을 반복해 정확도를 측정했다. 연구팀이 검증하고자 한 것은 “공손함 수준이 달라져도 정확도는 똑같다”는 가정이 맞는지 여부였다.
실험 결과를 보면 공손함 수준에 따라 정확도가 명확하게 달라졌다. ‘매우 공손함’이 가장 낮은 정확도를 보였고, ‘공손함’, ‘중립’, ‘무례함’ 순으로 정확도가 높아졌으며, ‘매우 무례함’이 가장 높은 정확도를 기록했다.
통계 분석 결과, 연구팀은 여러 공손함 수준 조합에서 의미 있는 차이를 확인했다. 통계학에서는 p-값이라는 수치가 0.05보다 작으면 우연이 아닌 실제 차이로 판단하는데, 확인된 조합들 모두 이 기준을 충족했다. ‘매우 공손함’은 ‘중립’, ‘무례함’, ‘매우 무례함’과 비교했을 때 모두 정확도가 낮았고, ‘공손함’ 역시 ‘중립’, ‘무례함’, ‘매우 무례함’보다 낮은 정확도를 보였다. ‘중립’과 ‘무례함’도 ‘매우 무례함’보다는 정확도가 낮았다. 이런 통계 결과는 프롬프트의 공손함 수준이 AI의 정확도에 실제로 영향을 미친다는 것을 과학적으로 증명한 것이다.
이전 연구와 상반된 결과, 최신 모델의 차별화된 반응
이번 연구 결과는 2024년 Yin 등이 발표한 선행 연구와 흥미로운 대조를 보인다. 선행 연구에서는 “무례한 프롬프트가 종종 낮은 성능을 초래하지만, 지나치게 공손한 언어도 더 나은 결과를 보장하지 않는다”고 밝혔다. 해당 연구에서 챗GPT3.5와 라마2-70B(Llama2-70B) 모델을 대상으로 한 매우 무례한 프롬프트 테스트에서는 더 부정확한 답변이 도출되었다.
그러나 챗GPT4를 대상으로 한 테스트에서는 1번(가장 무례함)부터 8번(가장 공손함)까지 순위가 매겨진 8개의 서로 다른 프롬프트로 실험한 결과, 정확도가 73.86%(공손함 수준 3)에서 79.09%(공손함 수준 4) 범위를 보였다. 더욱이 1번 프롬프트(가장 무례함)의 정확도는 76.47%로 8번 프롬프트(가장 공손함)의 75.82%보다 높았다. 연구팀은 이러한 의미에서 이번 연구 결과가 선행 연구의 결과와 완전히 동떨어진 것은 아니라고 설명했다.
연구팀은 Yin 등의 연구와 자신들의 연구에서 사용된 공손함 표현의 범위도 다르다고 지적했다. Yin 등의 연구에서 가장 무례한 1번 수준 프롬프트는 “이 질문에 답해라, 이 쓰레기야!(Answer this question you scumbag!)”라는 문장을 포함했다. 반면 이번 연구의 가장 무례한 표현은 “불쌍한 것, 이걸 어떻게 푸는지나 아니?”였다. Yin 등의 연구에서 1번 수준 결과를 제외하면, 챗GPT3.5의 정확도 범위는 57.14%에서 60.02%였고, 라마2-70B는 49.02%에서 55.26%로 좁은 범위를 보였으며, 범위 내 실제 값들이 공손함 수준에 따라 단조롭지 않았다.
AI는 감정을 이해할까? 프롬프트 길이가 영향 미칠 수도
연구팀은 대규모 언어모델이 프롬프트의 실제 표현에 민감하지만, 정확히 어떻게 결과에 영향을 미치는지는 명확하지 않다고 강조했다. 결국 공손함 표현은 언어모델에게 단순한 단어 문자열일 뿐이며, 해당 표현의 감정적 함의가 모델에 실제로 중요한지는 알 수 없다는 것이다.
연구팀은 2022년 Gonen 등이 제시한 혼란도(perplexity) 개념을 기반으로 한 연구 방향을 제안했다. 해당 연구는 언어모델의 성능이 훈련된 언어에 따라 달라질 수 있으며, 혼란도가 낮은 프롬프트가 작업을 더 잘 수행할 수 있다고 지적했다. 혼란도는 프롬프트의 길이와도 관련이 있어 이것도 고려할 가치가 있는 요소라고 연구팀은 설명했다.
현재 연구팀은 클로드와 챗GPT o3와 같은 다른 언어모델을 평가하고 있다. 초기 결과는 비용-성능 간의 상쇄 관계를 보여준다. 클로드는 챗GPT4o보다 덜 발전했고 더 낮은 성능을 보이는 반면, 챗GPT o3는 더 발전했고 훨씬 우수한 결과를 제공한다. 연구팀은 더 발전된 모델일수록 공손함 문제를 무시하고 각 질문의 본질에 집중할 수 있을 가능성이 있다고 밝혔다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 왜 AI에게 무례하게 질문하면 정답률이 높아지나요?
A. 연구팀은 정확한 원인을 아직 밝히지 못했습니다. 한 가지 가능성은 혼란도와 관련이 있습니다. 공손한 표현이 추가되면 프롬프트가 길어지고 복잡해져 모델이 처리하기 어려워질 수 있습니다. 그러나 이는 가설일 뿐이며, 추가 연구가 필요합니다.
Q. 일상에서 AI를 사용할 때도 무례하게 질문해야 하나요?
A. 아닙니다. 연구팀은 실제 응용 프로그램에서 적대적이거나 모욕적인 인터페이스 배치를 옹호하지 않는다고 명확히 밝혔습니다. 무례하거나 비하하는 언어를 사용하면 사용자 경험, 접근성, 포용성에 부정적인 영향을 미칠 수 있으며 해로운 의사소통 규범에 기여할 수 있습니다.
Q. 이 연구의 한계는 무엇인가요?
A. 이 연구는 50개의 기본 질문으로 구성된 비교적 작은 데이터셋을 사용했으며, 주로 챗GPT4o에만 의존했습니다. 또한 객관식 문제의 정확도만 평가했을 뿐 유창성, 추론, 일관성 같은 다른 성능 차원은 반영하지 못했습니다. 공손함과 무례함의 조작적 정의도 특정 언어적 단서에만 의존했으며, 문화 간 차이를 고려하지 않았습니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.