AI가 글을 쓸 때마다 똑같은 표현을 반복하는 ‘말버릇’을 고칠 수 있는 기술이 개발됐다. 마치 사람이 “있잖아”, “그니까” 같은 말버릇을 가지듯, AI 언어모델도 특정 단어나 문장 패턴을 과도하게 반복해 사용한다. 연구팀은 이런 AI의 말버릇을 찾아내고 고치는 ‘안티슬롭(Antislop)’ 프레임워크를 개발했다. 이 기술은 AI의 전반적인 능력은 그대로 유지하면서도 반복적인 표현을 90%까지 줄일 수 있는 것으로 나타났다.
AI도 말버릇이 있다? “엘라라” 이름만 8만 번 더 많이 사용
사람들이 AI가 쓴 글을 금방 알아차리는 이유가 있다. 연구팀이 젬마(Gemma)-3-12b라는 AI 모델의 창작 소설을 분석했더니, 특정 표현들이 사람보다 지나치게 많이 등장했다. 예를 들어 ‘엘라라(Elara)’라는 여자 이름은 사람이 쓴 소설보다 무려 85,513배나 더 자주 나왔다. ‘불안하게도(unsettlingly)’라는 단어는 3,833배, ‘반짝였다(shimmered)’는 2,882배 더 많이 사용됐다.

문장 패턴도 마찬가지다. “심장이 터질 듯 뛰었다(heart hammered ribs)”는 표현은 1,192배, “목소리가 약간 떨리며(voice trembling slightly)”는 731배나 더 자주 등장했다. 더 흥미로운 건 “그건 X가 아니라 Y야(It’s not X, it’s Y)” 같은 문장 구조도 사람보다 6.3배 더 많이 사용된다는 점이다.
연구팀이 67개의 다양한 AI 모델을 조사한 결과, 이런 말버릇은 거의 모든 AI에서 나타났다. ‘깜박였다(flickered)’는 98.5%의 AI 모델에서 과도하게 사용됐고, “거의 속삭이는 목소리로(voice barely whisper)”라는 표현은 68.7%의 모델에서 말버릇으로 확인됐다. 마치 같은 작문 학원을 다닌 학생들이 똑같은 문장 패턴을 쓰는 것과 비슷한 현상이다.
실시간으로 말버릇 차단하는 ‘안티슬롭 샘플러’
연구팀이 개발한 첫 번째 기술은 ‘안티슬롭 샘플러(Antislop Sampler)’다. 이건 AI가 글을 쓰는 도중에 실시간으로 말버릇을 잡아내는 시스템이다. 마치 글을 쓰다가 “아, 이 표현 또 썼네” 하고 지우고 다시 쓰는 것과 비슷하다.
작동 원리는 이렇다. AI가 한 단어씩 글을 생성할 때마다 시스템이 계속 감시한다. 만약 금지된 표현이 나오려고 하면, 그 표현이 시작된 지점으로 되돌아간다. 그리고 그 단어가 선택될 확률을 확 낮춰버린 다음 다시 단어를 고른다. 이 과정을 ‘백트래킹(backtracking)’이라고 부른다.
여기서 영리한 점은 ‘소프트 금지’ 기능이다. 완전히 못 쓰게 막는 게 아니라, 금지 강도를 0부터 1까지 조절할 수 있다. 0이면 자유롭게 쓸 수 있고, 1이면 완전 차단이다. 0.4 정도로 설정하면 일반적으로는 그 표현을 안 쓰지만, 정말 필요할 때는 쓸 수 있다. 예를 들어 사용자가 “태피스트리(tapestry)에 관한 글을 써줘”라고 명시했다면, ‘태피스트리’라는 단어가 금지 목록에 있어도 사용할 수 있게 해준다.
이 샘플러는 8,000개 이상의 표현을 동시에 차단할 수 있다. 기존 방식인 ‘토큰 금지’는 2,000개만 넘어가도 제대로 작동하지 않았는데, 안티슬롭 샘플러는 그 4배를 처리하면서도 글의 품질을 유지한다.
AI의 말버릇을 영구히 고치는 ‘FTPO 훈련법’
안티슬롭 샘플러는 효과적이지만 한 가지 단점이 있다. 글을 쓰는 속도가 최대 96%까지 느려진다는 것이다. 계속 되돌아가서 다시 쓰다 보니 당연히 시간이 오래 걸린다. 이 문제를 해결하기 위해 연구팀은 두 번째 기술인 ‘FTPO(Final Token Preference Optimization)’를 개발했다. 이건 AI의 말버릇을 아예 뿌리부터 고치는 훈련 방법이다.
FTPO는 AI에게 “이 표현 대신 저 표현을 써”라고 가르치는 방식이다. 예를 들어 AI가 “공주 엘라라가”라고 쓰려고 하면, “엘라라 말고 매들린, 나디아, 프레야, 이졸데 같은 이름을 써”라고 알려준다. 그런데 단순히 가르치기만 하면 AI가 망가질 수 있다. AI의 가장 선호하는 표현을 억지로 바꾸려면 내부 구조에 큰 변화가 생기고, 이게 부작용을 일으킬 수 있기 때문이다.
그래서 FTPO는 세 가지 안전장치를 사용한다. 첫째, 바꾸고 싶은 표현과 그 대안들만 조심스럽게 조정하고, 나머지 수만 개의 단어들은 최대한 건드리지 않는다. 둘째, 대안 표현들이 충분히 좋아지면 자동으로 훈련을 멈춘다. 마치 학생이 이미 개념을 이해했는데 계속 반복 학습시키면 오히려 역효과가 나는 것과 같은 이치다. 셋째, 원래 AI의 능력치에서 너무 멀어지지 않도록 안전줄을 매어둔다.
실제로 테스트해보니 FTPO는 놀라운 결과를 보였다. 말버릇을 90% 줄이면서도 AI의 글쓰기 능력은 거의 그대로 유지됐다. 수학 문제 풀이나 상식 질문에 답하는 능력도 기존과 비슷했다. 반면 기존 방식인 DPO로 훈련시켰더니 말버릇은 80%밖에 안 줄었고, 글쓰기 품질은 15%나 떨어졌다.
과잉학습 방지하는 스마트한 설계
FTPO의 진짜 강점은 과잉학습을 방지한다는 점이다. 연구팀이 실험한 결과, FTPO는 거의 100%까지 말버릇을 고치면서도 글쓰기 능력이 망가지지 않았다. 반면 DPO는 40%만 고치려고 해도 이미 글쓰기 능력이 크게 떨어졌다.
왜 이런 차이가 생길까? FTPO는 목표를 달성하면 자동으로 훈련을 멈추는 ‘브레이크’가 있기 때문이다. 마치 자동차의 ABS 브레이크처럼, 너무 심하게 제동이 걸리면 자동으로 풀어주는 장치가 내장돼 있다. DPO는 이런 안전장치가 없어서 계속 훈련하다 보면 AI가 점점 이상해진다.
연구팀이 AI 내부를 들여다봤더니, FTPO로 훈련한 AI는 바꾸고 싶은 부분만 조금씩 변했다. 하지만 DPO로 훈련한 AI는 전체적으로 크게 변해버렸다. 이게 바로 품질 차이를 만드는 원인이었다.
실전 활용 가능한 오픈소스로 공개
연구팀은 이 기술을 모두 공개했다. 누구나 무료로 다운받아 자기 AI 모델의 말버릇을 고칠 수 있다. 심지어 자동화 프로그램도 함께 제공한다. 이 프로그램은 AI의 글을 분석해서 어떤 표현을 과도하게 쓰는지 자동으로 찾아내고, 학습 데이터를 만들어서 AI를 훈련시키는 과정을 모두 자동으로 처리한다.
다만 실제로 사용할 때는 선택을 해야 한다. 안티슬롭 샘플러는 100% 완벽하게 말버릇을 차단하지만, 글 쓰는 속도가 많이 느려진다. FTPO는 한 번 훈련시켜두면 속도 저하 없이 계속 쓸 수 있지만, 90% 정도만 차단된다. 실시간 서비스에는 FTPO로 미리 훈련시킨 AI를 쓰고, 완벽한 차단이 필요할 때만 샘플러를 쓰는 게 좋다.
시사점: AI 콘텐츠의 새로운 시대, 탐지는 더 어려워져
이 기술이 상용화되면 여러 변화가 예상된다. 우선 AI가 쓴 글이 훨씬 자연스러워질 것이다. 지금까지는 “이건 AI가 쓴 거네” 하고 금방 티가 났는데, 이제는 구분하기 어려워질 수 있다. 소설, 광고 카피, 기사, 보고서 등 모든 분야에서 AI가 만든 콘텐츠의 품질이 크게 향상될 전망이다.
하지만 이는 양날의 검이다. AI 탐지 프로그램들이 바로 이런 반복 패턴을 찾아서 “이건 AI가 썼어요”라고 판별했는데, 이제 그게 어려워진다. 학교 과제나 신문 기사가 정말 사람이 쓴 건지 확인하기가 더 힘들어질 수 있다. 새로운 검증 방법이 필요해질 것이다.
또한 AI마다 고유한 말버릇이 있다는 걸 알게 됐으니, 각 AI 회사들은 자기 모델만의 특성을 분석하고 최적화하는 작업에 더 신경 써야 한다. 마치 사람마다 말투가 다르듯, AI마다 다른 맞춤형 교정이 필요하다는 뜻이다.
마지막으로 기술적 과제도 남아있다. 안티슬롭 샘플러는 아직 속도가 느리다. 1,000개 표현을 차단하면 속도가 69% 느려지고, 8,000개를 차단하면 96%나 느려진다. 빠른 응답이 중요한 챗봇 서비스에는 아직 부담스러울 수 있다. 그래서 당분간은 FTPO로 미리 훈련시킨 AI를 쓰는 게 현실적인 해결책이 될 것이다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. AI의 ‘말버릇’은 왜 생기는 건가요?
A. AI는 인터넷의 수많은 글을 읽고 학습합니다. 그 과정에서 특정 표현 조합이 자주 나오면 “이 표현들을 함께 쓰면 좋은 글이 되는구나”라고 잘못 학습할 수 있습니다. 또한 AI를 사람의 피드백으로 추가 훈련시킬 때, 안전하고 무난한 표현만 선호하다 보니 창의성이 떨어지고 특정 패턴만 반복하게 됩니다. 마치 학생이 시험에서 틀릴까 봐 외운 문장만 계속 쓰는 것과 비슷합니다.
Q. 일반 사용자도 이 기술을 쓸 수 있나요?
A. 네, 가능합니다. 연구팀이 모든 코드를 무료로 공개했습니다. 다만 자신의 컴퓨터에서 AI 모델을 직접 실행할 수 있는 환경이 필요합니다. ChatGPT나 클로드 같은 온라인 서비스를 쓰는 일반 사용자는 해당 기업들이 이 기술을 적용할 때까지 기다려야 합니다. 앞으로 AI 서비스들이 이 기술을 도입하면, 우리가 받는 답변의 품질이 자연스럽게 개선될 것입니다.
Q. 이 기술이 적용되면 AI 글쓰기가 완벽해지나요?
A. 아닙니다. 이 기술은 반복적인 표현만 줄여줄 뿐, AI 글쓰기의 모든 문제를 해결하지는 못합니다. AI는 여전히 사실을 지어낼 수 있고, 논리적 오류를 범할 수 있으며, 창의성이나 깊이 있는 통찰력은 사람보다 부족합니다. 다만 “AI티 나는” 어색한 표현이 줄어들어 더 자연스러운 글을 쓸 수 있게 되는 것입니다. AI 글쓰기의 한계를 조금 더 극복한 것으로 이해하면 됩니다.
기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Antislop: A Comprehensive Framework for Identifying and Eliminating Repetitive Patterns in Language Models
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.