Experimental narratives: A comparison of human crowdsourced storytelling and AI storytelling
AI와 인간의 스토리텔링 비교 분석
캘리포니아 대학교 버클리 연구진이 인간과 AI의 스토리텔링 능력을 비교 분석한 결과, GPT-4가 성 역할과 성적 지향성 측면에서 인간보다 더 진보적인 서사를 보여주는 것으로 나타났다. 연구진은 크라우드소싱 플랫폼을 통해 250명의 인간 참가자와 GPT-3.5, GPT-4를 대상으로 동일한 서사 실험을 진행했으며, 추가로 메타의 오픈소스 모델인 Llama 3 70B와도 비교 분석을 실시했다.
젠더 역할과 다양성에서 앞선 AI
연구 결과에 따르면, GPT-4는 전통적으로 남성 역할로 여겨졌던 등장인물을 여성으로 설정하는 경우가 더 많았다. 특히 창작자 역할에서 인간 참가자들은 10%만이 여성 캐릭터를 설정한 반면, GPT-4는 25%의 비율로 여성 캐릭터를 등장시켰다.
GPT-4가 생성한 이야기 중에서는 동성 관계를 다룬 비율이 12.5%로, 인간 참가자들의 7.3%보다 높았다. 특히 주목할 만한 점은 GPT-4가 생성한 이야기의 절반 이상에서 여성 창작자(21/40)와 여성 인공인간(24/40)이 등장했다는 것이다. 이는 기존 문학에서 보여진 전통적인 젠더 역할을 크게 벗어난 결과다.
AI의 스토리텔링은 형식과 내용 면에서 뚜렷한 한계를 보였다. GPT로 생성된 이야기들은 대부분 “옛날 옛적에”로 시작하는 획일적인 도입부를 사용했으며, 미래의 가상 도시라는 일반적인 배경 설정에 크게 의존했다. 또한 이야기 전개가 매우 예측 가능했고, 대부분 도덕적 교훈으로 마무리되는 경향을 보였다. 등장인물의 심리 묘사는 피상적이었으며, 대화도 부자연스러웠다. 특히 문화적 특수성이나 구체적인 시공간적 배경이 결여되어 있다는 점이 두드러졌다.
AI 모델 간의 차이점
연구는 GPT-3.5와 GPT-4, 그리고 Llama 3 사이의 차이점도 분석했다. GPT-4는 GPT-3.5에 비해 더 긴 이야기(평균 500단어 vs 300단어)를 생성했으며, 더 복잡한 플롯과 풍부한 언어 사용을 보여줬다. 특히 GPT-4는 다자간 관계나 블랙메일과 같은 독창적인 전개를 시도하기도 했다.
Llama 3 모델의 경우, GPT-4와 유사한 수준의 서사를 보여줬으나, 젠더 다양성 측면에서는 더 진보적인 경향을 보였다. 여성 창작자의 비율이 65%에 달했으며, 전통적인 성 역할에서 더 자유로운 서사를 구사했다.
이번 연구는 AI와 인간의 스토리텔링을 직접 비교한 최초의 대규모 실험이라는 점에서 의의가 있다. 연구를 주도한 니나 베구스 교수는 “AI 모델이 보여준 진보적인 서사는 기술이 우리 사회의 고정관념을 깨는 데 기여할 수 있음을 보여준다”고 설명했다.
또한 연구진은 “AI의 창의적 글쓰기는 인간과의 협업을 통해 더욱 발전할 수 있다”고 강조했다. 현재 AI 모델의 한계점들은 적절한 프롬프트 엔지니어링과 파라미터 조정을 통해 개선될 수 있으며, 이는 향후 AI 언어 모델 발전의 중요한 방향성을 제시한다.
향후 과제와 전망
연구진은 AI 스토리텔링의 발전을 위한 새로운 과제들을 제시했다. 우선 AI가 다양한 문화적 맥락을 더 잘 반영할 수 있는 학습 방법의 개발이 필요하다고 지적했다. 또한 자연스러운 대화와 캐릭터의 심리를 더 깊이 있게 묘사할 수 있는 능력을 향상시켜야 한다고 강조했다. 더불어 획일적인 서사 구조를 벗어나 더욱 창의적인 스토리텔링을 구현하는 것과 윤리적 가치와 창의성의 균형 있는 발전도 중요한 과제로 제시됐다.
이번 연구 결과는 AI 언어 모델이 단순한 텍스트 생성을 넘어, 사회적 가치와 창의적 표현을 결합한 새로운 형태의 스토리텔링 도구로 발전할 수 있음을 시사한다.
기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.
기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.
관련 콘텐츠 더보기