나는 2015년부터 기계에게 이야기를 가르치는 일을 해왔다. 엔씨소프트에서 8년, 지금은 KT 미디어본부에서. 직함과 회사는 바뀌었지만 붙들고 있는 질문은 같다. AI는 정말 이야기를 아는 걸까.
AI가 글을 척척 써주는 시대가 됐지만, “그럴듯한 글”과 “좋은 이야기”는 다른 말이다. 그 차이를 현장에서 직접 부딪히며 10년을 보냈다. 이 연재는 그 시도와 실패, 그리고 그 과정에서 발견한 것들의 기록이다.
이 칼럼은 룰베이스 시대의 실험부터 LLM 등장 이후까지를 다룬다. AI 글쓰기 도구를 쓰면서 뭔가 부족하다고 느낀 적 있다면, 혹은 창작과 기술 사이 어딘가에 서 있다면, 이 기록이 그 감각에 말을 붙여줄 수 있을 것이다.
1. 매끄러운데 납작하다
작가 친구에게 AI가 쓴 글을 보여준 적이 있다. 친구는 잠깐 읽더니 고개를 저었다. 아직 멀었다고. 인간이 역시 잘한다고. 왜 그렇게 느끼냐고 되물었더니 친구는 잠깐 생각하다가 답했다.
“뭐라고 꼭 집어 말하긴 어려운데, 뭔가 재미가 없네. 맛깔스럽지가 않아.”
이 대답이 기억에 오래 남았다. 글 쓰는 걸로 먹고사는 사람이 AI의 글을 보고 내린 판단인데, 정작 그 판단의 근거를 딱 부러지는 언어로 표현하기는 어려웠다. 비슷한 경험은 내가 직접 AI에게 이야기를 부탁해보면서도 반복되었다. 처음 한두 편은 신기했다. 설정이 다채롭고 문장도 그럴싸했다. 그런데 서너 편을 이어 받다 보면 어느 순간 비슷한 느낌이 돌아오기 시작했다. 주인공이 고생은 하는데 금방 잘 풀렸다. 반전을 내놓으려는 시도는 보였지만 뻔히 보이는 반전이라 긴장감을 주기 어려운 구조가 반복됐다. 한 편은 괜찮은데 여러 편은 지쳤다.
이 이상함은 룰베이스 시대의 이상함과 종류가 달랐다. 앞의 화에서 다뤘던 헨리 개미의 죽음 같은 장면처럼 논리가 어긋나서 기계가 썼다는 티가 금방 났다. LLM은 그 층위의 실패를 거의 지워냈다. 문장이 매끄럽고 단어가 자연스럽고 문단이 흘러간다. 문장만 보면 사람이 쓴 것과 구별하기 어려운 순간도 있다.
그런데 이야기 단위로 올라가면 다른 문제가 드러난다. 문장은 매끄러운데 납작하다. 읽는 동안에는 괜찮은데 돌아서면 뭐였는지 흐릿해진다. 유창함이라는 문제는 분명히 풀렸는데 이야기로서의 힘은 오히려 빠져 있다.
내 친구가 맛깔스럽지 않다고 말한 것. 내가 AI로부터 여러 편을 받아보고 비슷하다고 느낀 것. 이 감각은 오랫동안 창작자들이 어렴풋이 느껴온 것이었다. 측정하기 어려웠을 뿐이다. 그리고 이 감각을 숫자로 포착한 연구들이 최근 나왔다.
2. 해피엔딩으로 수렴한다
캘리포니아의 한 연구팀이 2024년에 실험을 했다. 방법은 단순하다. 연구팀은 2020년대에 개봉한 영어 영화 800여 편의 줄거리 요약을 모았다. 그리고 같은 영화들의 제목과 설정과 장르를 GPT-4에게 주고 줄거리를 다시 쓰게 했다. 사람이 쓴 것과 기계가 쓴 것이 같은 수만큼 생겼다. 이걸 나란히 놓고 어떤 이야기 모양인지를 분석했다.
이야기 모양(shapes of stories)이라고 하면 막연하지만 소설가 커트 보니것(Kurt Vonnegut)이 1995년 한 강연에서 정리한 분류를 쓰면 이해가 쉬워진다. 보니것은 대부분의 이야기가 주인공의 운명이 오르내리는 몇 가지 기본 곡선으로 나뉜다고 봤고, 그 곡선 하나하나에 유머러스한 이름을 붙였다. 잘 지내다 위기에 빠졌다 빠져나오는 구덩이에 빠진 사람(Man in a Hole), 바닥에서 출발해 계속 올라가는 빈털터리에서 부자로(Rags to Riches), 처음엔 상승하다가 결국 추락하는 오이디푸스(Oedipus), 잘 살다가 몰락해가는 부자에서 빈털터리로(Riches to Rags). 이런 식이다. 그중 구덩이에 빠진 사람 유형은 할리우드 상업영화의 거의 전부가 이 구조라고 보니것 본인이 지적한 유형이다.
![[AI는 이야기를 모른다] 제 2화. 그럴듯한데 재미없는 이야기 1 그림 1. 보니것의 네 가지 이야기 곡선](https://aimatters.co.kr/wp-content/uploads/2026/04/AI-Matters_column-image-1.png)
사람이 쓴 영화 줄거리에서는 이 유형들이 골고루 섞여 있었다. 그런데 기계의 결과물에서는 분포가 완전히 달랐다.
부자에서 빈털터리로 유형은 사람이 쓴 작품 100편 중 15편 가까이 있었다. 기계가 쓴 작품에서는 100편 중 한 편 남짓으로 줄었다. 오이디푸스 유형도 마찬가지였다. 100편 중 아홉 편에서 두 편도 안 되게 사라졌다. 반대로 빈털터리에서 부자로 유형은 네 편에서 열세 편으로 세 배 이상 늘어났다. 구덩이에 빠진 사람 유형은 전체의 절반을 넘어섰다.
![[AI는 이야기를 모른다] 제 2화. 그럴듯한데 재미없는 이야기 2 그림 2. 인간 vs GPT-4 분포 비교](https://aimatters.co.kr/wp-content/uploads/2026/04/AI-Matters_column-image-2-scaled.png)
한 줄로 정리하면 이렇다. 기계가 쓴 이야기에서 어둠이 거의 사라진다. 시련이 있어도 반드시 극복된다. 추락은 생략된다. 모든 이야기가 밝은 쪽으로 당겨진다.
연구팀은 이야기의 리듬에서도 차이를 발견했다. 드라마든 소설이든 영화든 이야기에는 결정적 순간이 있다. 주인공이 돌아갈 수 없는 지점에 들어서고 결정적 시련을 맞고 마지막에 클라이맥스가 터진다. 이 순간들이 이야기 전체에서 어디에 놓이는지를 측정했다. 사람의 작품과 기계의 작품이 초반부에서는 비슷했는데 후반부에서 갈라졌다. 기계는 결정적 시련과 클라이맥스를 이야기의 더 앞쪽으로 끌어당기는 경향이 있었다.
클라이맥스가 너무 일찍 오면 이야기의 나머지 부분이 얇아진다. 12부작 드라마의 클라이맥스가 8화에 터지고 남은 네 개의 화가 사소하게 느껴지는 것과 같다. 클라이맥스가 무게를 쌓을 시간을 갖지 못하고, 그 이후의 여운도 오래가지 못한다. 연구팀은 이야기 아크가 더 평탄하고 덜 흥미로워진다고 썼다.
두 가지를 나란히 놓고 보면 한 방향이 시야에 들어온다. 어둠이 사라지는 것과 클라이맥스가 앞쪽으로 밀려나는 것. 기계의 이야기는 밝고 짧은 쪽으로 기울어 있다. 어둡고 지속적인 긴장이 빠져 있다. 이 연구는 창작자들이 어렴풋이 감지해온 밋밋함이 왜 생기는지를 처음으로 숫자로 보여줬다.
3. 규모를 키워도 따라잡지 못한다
자연스럽게 떠오르는 질문이 있다. 그러면 모델이 더 커지고 똑똑해지면 이 문제도 줄어들지 않을까. 다음 버전의 GPT가 다음 버전의 Claude가 이걸 해결해주지 않을까.
이 질문에 먼저 답한 연구가 있다. 컬럼비아대(Columbia University)와 세일즈포스(Salesforce)가 2024년에 함께 한 실험이다. 연구팀은 창의성을 판정하는 열네 가지 체크리스트를 만들었다. 이야기가 유창한가. 다양한 요소를 섞는가. 독창적인가. 세부 묘사가 풍성한가. 각 항목을 예와 아니오로 답하는 방식이다.
평가는 전문 창작자 열 명이 맡았다. 글은 두 종류였다. 뉴요커(The New Yorker)에 실제로 게재된 단편 열두 편. 그리고 같은 소재로 GPT-3.5와 GPT-4와 Claude가 각각 쓴 서른여섯 편. 총 마흔여덟 편에 대해 이천 개가 넘는 판정을 모았다.
결과가 나왔다. 뉴요커 작가들의 단편은 열네 개 중 평균 열두 개 가까이 통과했다. 통과율 85퍼센트 수준이다. GPT-3.5는 10퍼센트를 넘지 못했다. 열네 개 중 한 개 겨우 통과하는 수준이다. GPT-4와 Claude는 그보다 훨씬 나아서 30퍼센트까지 올라갔다. 열네 개 중 네 개 정도다.
모델이 커지면 확실히 나아진다. GPT-3.5에서 GPT-4로 오면서 통과율이 거의 세 배 올랐다. 그런데 전문 작가의 85퍼센트까지는 갈 길이 멀다. 이 속도로 따라잡으려면 몇 세대가 더 필요한지 알 수 없다. 어쩌면 도달할 수 없는 지점일 수도 있다.
여기서 더 눈길을 끄는 발견이 하나 있다. 연구팀은 같은 열네 개 체크리스트를 LLM에게도 시켰다. 네 편의 글을 주고 어느 것이 더 창의적인가를 기계가 판단하게 했다. 결과는 전문가의 판정과 일치하는 LLM이 단 하나도 없었다. 기계는 인간 수준으로 흥미롭게 쓰지 못할 뿐 아니라 어떤 글이 흥미로운지도 알아보지 못한다.
이 두 가지 발견을 이어서 읽으면 한 가지가 분명해진다. 문제는 모델의 크기가 아니라는 것이다. GPT-3.5보다 GPT-4가 크고 GPT-4보다 다음 모델이 더 커질 것이다. 그런데 크기를 키우는 방향으로는 창작자들이 찾는 것에 도달하지 못한다. 다른 방향이 필요하다.
4. 문장으로는 부족하다
해피엔딩으로의 쏠림. 앞당겨진 클라이맥스. 창의성 체크리스트의 낮은 통과율. 기계의 판정 능력 부재. 이 네 가지 관찰은 하나의 방향을 가리킨다. LLM은 이야기의 겉모양은 따라잡았지만 그 안을 채우는 무엇인가를 놓치고 있다.
그것이 무엇인지에 대해 학계는 오랫동안 묻고 답해왔다. 서스펜스는 어떻게 작동하는가. 창의성은 어떻게 측정할까. 정서의 강도는 어떻게 포착할까. 이야기를 정량적으로 분석하는 전통이 수십 년간 누적되어 있다. 그런데 이런 시도들에도 불구하고 흥미로움 자체에 대한 합의된 정의는 아직 자리를 잡지 못했다. 평탄하다 긴장이 부족하다 흥미롭지 않다는 표현은 결과를 가리킬 뿐 원인을 가리키지 않는다. 문제의 층위가 문장 너머 어딘가에 있다는 것만 분명하다.
정의되지 않은 문제 앞에서 시장은 움직였다. LLM이 공개되고 지난 몇 년간 AI 창작 도구를 만드는 회사들은 각자의 방식으로 응답을 내놓았다. 어떤 회사는 창작에서 아예 발을 뺐다. 어떤 회사는 창작에 남되 판정의 책임을 다시 사람에게 넘겼다. 어떤 회사는 이야기가 거의 필요 없는 영역으로 물러섰다.
이들이 공통적으로 내린 선택은 하나로 묶인다. 흥미로움 문제를 풀려고 하지 않고 비껴가기로 한 것이다. 다음 회에서는 이 시장의 선택들을 들여다본다. 어떤 회사들이 창작에서 물러났고, 어떤 회사들이 남았으며, 남은 쪽은 무엇을 포기하고 무엇을 택했는가.
「AI는 이야기를 모른다」는 AI매터스에서 격주 수요일마다 연재됩니다.
Reference
Tian, Y., Huang, T., Liu, M., Jiang, D., Spangher, A., Chen, M., May, J., & Peng, N. (2024). Are Large Language Models Capable of Generating Human-Level Narratives? Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 17659–17681. https://aclanthology.org/2024.emnlp-main.978/
Chakrabarty, T., Laban, P., Agarwal, D., Muresan, S., & Wu, C.-S. (2024). Art or Artifice? Large Language Models and the False Promise of Creativity. Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems, 1–34. https://doi.org/10.1145/3613904.3642731
Vonnegut, K. (1995). Shapes of Stories [Lecture]. https://www.youtube.com/watch?v=oP3c1h8v2ZQ


![[AI 트렌드] 클릭 한 번으로 '낙서풍·치비·미니미'… 챗GPT 이미지 스타일 프리셋이 바꾼 풍경](https://aimatters.co.kr/wp-content/uploads/2026/05/ChatGPT-image_1.jpg)



