Improving LLM First-Token Predictions in Multiple-Choice Question Answering via Prefilling Attack
구글 AI가 34%→72% 성능 급상승한 비밀, ‘프리필링’ 기법의 정체
이탈리아와 미국 대학 및 메타 연구진이 ChatGPT 같은 AI 모델이 객관식 문제를 풀 때 정답률을 크게 높이는 간단한 방법을 발견했다. 놀랍게도 이 방법은 AI 모델을 다시 학습시키거나 복잡한 설정 없이, 단순히 질문 앞에 한 문장을 추가하는 것만으로 효과를 볼 수 있다. 연구진이 개발한 이 방법은 ‘프리필링(Prefilling)’ 기법이라고 불린다. AI 모델에게 객관식 문제를 물어볼 때 “정답은:”이라는 간단한 문구를 미리 넣어주는 방식이다. 마치 학생에게 “답을 A, B, C, D 중에서 골라서 대답해”라고 미리 말해주는 것과 비슷하다.
실험 결과는 놀라웠다. 구글의 제마-2-9B(Gemma-2-9B) AI 모델은 평균 정답률이 27%나 올랐다. 특히 일반 상식을 묻는 MMLU 테스트에서는 34%에서 72%로 두 배 이상 향상됐다. 메타(Meta)의 라마(Llama) 모델과 마이크로소프트의 파이(Phi) 모델에서도 비슷한 개선 효과가 나타났다. 과학 지식을 묻는 문제에서는 더욱 극적인 변화를 보였다. 한 AI 모델의 정답률이 겨우 2%에서 97%로 뛰어올라, 거의 모든 문제를 맞히는 수준에 도달했다.

AI가 객관식 문제를 어려워하는 이유
그렇다면 왜 AI 모델들이 객관식 문제를 어려워할까? 연구진은 두 가지 주요 문제를 발견했다.
첫 번째는 AI가 답을 정확히 알고 있어도 “저는 답이 A라고 생각합니다”처럼 긴 설명을 하려고 한다는 점이다. 평가 시스템은 첫 번째 글자만 보고 정답을 판단하는데, 이 경우 “저”라는 글자가 나와서 틀린 것으로 처리된다.
두 번째는 더 교묘한 문제다. AI가 “A도 가능한 답이지만 정답은 C입니다”라고 답할 때, 첫 글자는 “A”이지만 실제 의도한 답은 “C”인 경우다. 이런 상황에서 평가 시스템은 잘못된 판단을 내리게 된다.
AI에게 ‘정답은:’이라고 말해주면 벌어지는 놀라운 일
프리필링 기법은 이런 문제들을 해결하는 간단하면서도 효과적인 방법이다. “질문과 선택지를 보고, 제 답은:”이라는 문구를 미리 넣어주면, AI가 바로 A, B, C, D 중 하나로 답하게 된다. 이는 마치 학생에게 시험 문제 형식을 미리 알려주는 것과 같다. “이 문제는 객관식이니까 번호로만 답하세요”라고 가이드라인을 주는 셈이다. 흥미롭게도 이 기법은 원래 AI의 안전장치를 우회하기 위해 개발된 ‘해킹’ 기법이었다. 하지만 연구진은 이를 긍정적인 목적으로 활용해 AI의 성능을 높이는 데 성공했다.
지금까지 AI의 객관식 문제 성능을 높이려면 복잡한 과정이 필요했다. AI가 자유롭게 답변을 생성하게 한 후, 다른 AI 모델이 그 답변을 분석해서 A, B, C, D 중 어느 것에 해당하는지 판단하는 방식이었다. 이는 시간도 오래 걸리고 비용도 많이 든다. 하지만 프리필링 기법은 이런 복잡한 과정 없이도 비슷하거나 더 좋은 결과를 얻을 수 있다. 여러 테스트에서 기존의 복잡한 방법과 거의 동일한 성능을 보였으며, 어떤 경우에는 더 나은 결과를 냈다.
2%→97% 극적 변신, AI 객관식 실력 폭발적으로 높이는 신기술
연구진은 또 다른 흥미로운 발견을 했다. 프리필링 기법이 AI의 ‘확신도’도 개선한다는 것이다. 확신도란 AI가 자신의 답에 대해 얼마나 확신하는지를 나타내는 수치다. 좋은 AI는 정답을 맞힐 때는 높은 확신도를 보이고, 틀릴 가능성이 있을 때는 낮은 확신도를 보여야 한다. 마치 실력 있는 학생이 확실한 문제에는 자신 있게 답하고, 어려운 문제에는 신중하게 접근하는 것과 같다. 실험 결과 프리필링을 사용한 AI 모델들은 이런 ‘확신의 정확성’이 크게 개선됐다. 이는 AI를 실제 서비스에 활용할 때 더 신뢰할 수 있다는 의미다.
FAQ
Q: 프리필링이 정확히 무엇인가요?
A: 프리필링은 AI에게 질문할 때 “정답은:” 같은 간단한 안내 문구를 미리 넣어주는 방법입니다. 마치 학생에게 “객관식이니까 번호로만 답하세요”라고 알려주는 것처럼, AI가 올바른 형태로 답변하도록 도와주는 기법입니다.
Q: 모든 AI 모델에서 이 방법이 효과가 있나요?
A: 네, 연구에서 테스트한 8가지 서로 다른 AI 모델 모두에서 성능 향상이 나타났습니다. 처음 성능이 좋지 않았던 모델일수록 더 큰 개선 효과를 보였지만, 이미 성능이 좋은 모델들도 추가적인 향상을 보였습니다.
Q: 이 방법을 사용하기 위해 복잡한 설정이 필요한가요?
A: 전혀 그렇지 않습니다. AI 모델을 다시 학습시키거나 특별한 프로그램을 설치할 필요 없이, 단순히 질문 앞에 안내 문구를 추가하기만 하면 됩니다. 누구나 쉽게 사용할 수 있는 간단한 방법입니다.
해당 기사에 인용한 논문 원문은 링크에서 확인 가능하다.
기사는 클로드와 챗GPT를 활용해 작성되었습니다.