• Home
  • AI Report
  • AI로 생성한 시, 인간 시인보다 더 높은 평가받아… “더 인간적”이라는 평가도

AI로 생성한 시, 인간 시인보다 더 높은 평가받아… “더 인간적”이라는 평가도

AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably
이미지출처: 이디오그램

AI-generated poetry is indistinguishable
from human-written poetry and is rated more favorably

연구 개요와 주요 발견

피츠버그 대학교 연구진이 실시한 두 차례의 실험 결과, AI가 생성한 시와 유명 시인들의 작품을 구별하는 것이 불가능한 수준에 이르렀음이 밝혀졌다. 첫 번째 실험에서 1,634명의 참가자들은 AI가 생성한 시를 식별하는데 46.6%의 정확도를 보였으며, 이는 우연의 확률보다도 낮은 수치다. 특히 참가자들 간의 판단 일치도도 매우 낮았다(Fleiss’s kappa = 0.005, p < 0.001).

특히 주목할 만한 점은 가장 낮은 ‘인간성’ 평가를 받은 5편의 시가 모두 실제 인간 시인의 작품이었고, 가장 높은 ‘인간성’ 평가를 받은 5편 중 4편이 AI가 생성한 시였다는 것이다.

실험 방법론과 참가자 특성

연구진은 챗GPT 3.5를 활용해 10명의 유명 시인의 스타일로 각각 5편씩의 시를 생성했다. 선정된 시인들은 제프리 초서(1340s-1400), 윌리엄 셰익스피어(1564-1616), 사무엘 버틀러(1613-1680), 바이런(1788-1824), 월트 휘트먼(1819-1892), 에밀리 디킨슨(1830-1886), T.S. 엘리엇(1888-1965), 앨런 긴즈버그(1926-1997), 실비아 플라스(1932-1963), 도로시아 래스키(1978- )다.

‘human out of the loop’ 방식을 채택해 AI가 생성한 첫 5편을 그대로 사용했으며, 어떠한 인간의 선별이나 개입도 없었다. 이는 이전 연구들과의 중요한 차이점이다. GPT-2를 사용한 이전 연구들에서는 인간의 개입 없이 생성된 AI 시가 쉽게 구별되었던 것과 달리, ChatGPT-3.5는 인간의 개입 없이도 구별이 불가능한 수준의 시를 생성할 수 있게 되었다.

두 번째 실험에서는 696명의 참가자를 세 그룹으로 나누어 진행했다:

  • 모든 시를 인간 작품이라고 고지받은 그룹
  • 모든 시를 AI 작품이라고 고지받은 그룹
  • 작성자에 대한 정보를 받지 않은 그룹

각 그룹은 동일한 10편의 시(AI 5편, 인간 5편)를 평가했다.

참가자 특성과 시 구별 능력

연구 참가자들의 90.4%가 연간 몇 번 정도만 시를 읽는다고 답했으며, 55.8%는 시에 대해 “매우 친숙하지 않다”, 66.8%는 배정받은 시인에 대해 “전혀 친숙하지 않다”고 응답했다.

주목할 만한 점은 시에 대한 경험이나 친숙도가 AI/인간 시 구별 능력과 상관관계가 없었다는 것이다. 오히려 참가자들의 자신감이 높을수록 틀린 답을 할 가능성이 더 컸다(b = -0.021673). 유일하게 정확도를 높인 요인은 이전에 해당 시를 본 적이 있는 경우였으며, 이 경우에도 정확도는 단 6%만 증가했다.

품질 평가 결과

AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably

두 번째 실험에서는 696명의 참가자들이 시의 품질을 14개 항목으로 평가했다. AI가 생성한 시는 ‘독창성’을 제외한 13개 평가 항목에서 인간 시인의 작품보다 유의미하게 높은 평가를 받았다. 특히 리듬감 측면에서 가장 큰 차이를 보였다.

요인 분석 결과, 시 평가는 다음 네 가지 주요 요인으로 분류됐다:

AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably
  • 감정적 품질(아름다움, 영감, 의미, 감동, 심오함)
  • 형식적 품질(리듬, 서정성, 음향)
  • 분위기(이미지, 감정/정서, 주제)
  • 창의성(재치, 독창성)

AI 시의 특징과 선호도의 이유

연구진은 AI 시가 선호되는 이유로 명확한 해석 가능성을 제시했다. T.S. 엘리엇의 “The Boston Evening Transcript”가 17세기 프랑스 도덕론자 라 로슈푸코를 언급하며 신문 독자들을 옥수수 밭에 비유하는 등 복잡한 은유를 사용한 것과 달리, AI의 시는 더 직접적으로 주제와 감정을 전달했다.

인식의 역설과 선호도과 정책적 함의

흥미로운 점은 동일한 시를 두고 AI 작품이라고 알려줬을 때 더 낮은 평가를 받았다는 것이다. 이는 AI 창작물에 대한 선입견이 여전히 존재함을 보여준다. 연구진은 AI 시가 선호되는 이유로 명확한 해석 가능성을 제시했다. T.S. 엘리엇의 “The Boston Evening Transcript”처럼 17세기 프랑스 도덕론자를 언급하며 복잡한 은유를 사용하는 인간 시인들의 작품과 달리, AI의 시는 더 직접적으로 주제와 감정을 전달했다.

이러한 발견은 AI 생성 콘텐츠의 투명성 규제 필요성을 제기한다. 미국 백악관과 유럽연합은 최근 AI 시스템의 텍스트와 이미지 생성에 대한 공개 규정을 제안했다. 하지만 사용자들이 이러한 공개를 무시하는 경향이 있어, 효과적인 공개 방법을 찾는 것이 중요한 과제로 떠올랐다.

기사에 인용된 리포트의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




AI로 생성한 시, 인간 시인보다 더 높은 평가받아… “더 인간적”이라는 평가도 – AI 매터스