폴란드의 바르샤바 공과대학교의 연구 논문에 따르면, 인지과학과 컴퓨터과학 전공자들조차 AI가 생성한 예술 작품과 인간이 창작한 작품을 제대로 구별하지 못하는 것으로 나타났다. 이번 연구는 영국의 수학자 에이다 러브레이스(Ada Lovelace)의 이름을 딴 ‘러브레이스 테스트(Lovelace Test)’를 활용해 기계의 창작 능력을 평가했으며, AI 예술이 인간의 미적 감각에 부합하는 수준에 도달했음을 시사한다.
개별 평가에서 46.4% 정답률, 우연보다도 낮아
연구진은 인지과학과 컴퓨터과학 석사과정 학생 46명을 대상으로 두 가지 버전의 튜링 테스트를 실시했다. 병렬 비교(parallel-paired) 테스트에서는 AI 생성 이미지와 인간 창작 작품을 동시에 제시해 어느 것이 AI가 만든 것인지 판별하게 했고, 개별 대화(viva voce) 테스트에서는 이미지를 하나씩 보여주며 AI 생성 여부를 묻는 방식으로 진행했다.
개별 대화 테스트에서 참가자들의 전체 정답률은 46.4%로 우연 수준(50%)보다도 낮았으며, 통계적으로 유의미하게 튜링의 기준인 70%보다 낮은 수준을 보였다. 특히 달리 2(DALL-E 2)가 생성한 ‘카페에서 커피를 마시는 우울한 골든 리트리버’ 이미지는 78%의 참가자가 인간이 그린 것으로 잘못 판단했다.
반면 병렬 비교 테스트에서는 75.2%의 정답률을 기록해 우연 수준보다 통계적으로 유의미하게 높았지만, 튜링의 70% 기준을 넘어선 이미지 쌍은 5개 중 2개에 불과했다.
AI 예술 작품, 인간 작품과 동등한 미적 평가 받아
5점 만점 리커트 척도로 측정한 미적 가치 평가에서 AI 생성 이미지는 평균 3.3점, 인간 창작 작품은 3.2점으로 통계적으로 유의미한 차이가 없었다. 개별 작품별로는 차이가 있었는데, 기가픽셀 AI(Gigapixel AI)가 생성한 ‘테아트르 도페라 스파시알(Théâtre D’opéra Spatial)’ 작품은 모든 이미지 중 가장 높은 평점인 3.9점을 받았다.
참가자들의 개방형 응답을 분석한 결과, AI 작품 판별 시 ‘너무 이상적인’ 형태나 동물의 모양, 이미지 배경의 질감을 주요 근거로 삼았다. 하지만 ‘개와 우주인’의 이상한 조합을 두고 일부는 ‘혼란스러워서’ AI 작품으로, 다른 일부는 ‘창의적이어서’ 인간 작품으로 판단하는 등 일관된 기준이 없었다.

러브레이스 테스트로 검증된 기계 창작 능력
이번 연구는 1950년 앨런 튜링(Alan Turing)이 제시한 튜링 테스트를 예술 창작 영역으로 확장한 것이다. 기존 튜링 테스트가 대화를 통한 모방 능력에 초점을 맞췄다면, 러브레이스 테스트는 아다 러브레이스가 주장한 “기계가 새롭고 창의적인 것을 만들어낼 수 있어야 진정한 지능”이라는 개념에 기반해 창작 능력으로 기계 지능을 평가한다.
연구에서는 오픈AI(OpenAI)의 달리 2 시스템만을 AI 이미지 생성원으로 사용했으며, 프롬프트 품질의 혼재 효과를 피하기 위해 기존에 생성된 고품질 이미지들을 선별해 활용했다. 인간 작품은 다양한 화가들의 작품을 예술가들의 공개 프로필에서 수집했다.
연구 결과가 시사하는 보완점
개별 평가에서는 46.4%, 병렬 비교에서는 75.2%로 테스트 방식에 따라 정답률이 크게 달라진 점은 AI 작품 판별 연구의 방법론적 한계를 보여준다. 향후 연구에서는 다양한 예술 장르(회화, 조각, 디지털 아트 등)와 평가 방식을 활용한 보다 포괄적인 검증이 필요하다.
참가자들이 ‘너무 이상적’ 또는 ‘창의적’ 등 주관적이고 일관성 없는 기준으로 작품을 판단한 결과는 명확한 구분 지표의 부재를 드러낸다. AI 작품의 기술적 특징이나 시각적 패턴에 대한 객관적 분석 틀 개발이 선행되어야 할 것으로 보인다.
이번 연구가 인지과학·컴퓨터과학 전공자 46명을 대상으로 한정된 만큼, 일반인, 예술 전문가, 미술 교육자 등 다양한 배경의 평가자들을 포함한 후속 연구를 통해 결과의 일반화 가능성을 확인할 필요가 있다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: The Lovelace Test of Intelligence: Can Humans Recognise and Esteem AI-Generated Art?
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.