• Home
  • AI Report
  • “학생이 쓴 걸까, AI가 쓴 걸까?” – 현직 교사도 못 알아보는 ChatGPT 글쓰기의 실체

“학생이 쓴 걸까, AI가 쓴 걸까?” – 현직 교사도 못 알아보는 ChatGPT 글쓰기의 실체

Do teachers spot AI? Evaluating the detectability of AI-generated texts among student essays
이미지출처: 이디오그램

Do teachers spot AI? Evaluating the detectability of AI-generated texts among student essays

AI와 인간의 글쓰기, 구분할 수 있을까?

생성형 인공지능(Generative AI)이 교육 현장에 가져온 변화가 심상치 않다. 코튼(Cotton) 등의 연구진은 AI가 학습 과정 최적화와 실시간 피드백 제공 등 교육에 긍정적 영향을 미칠 수 있다고 분석했다. 하지만 동시에 챗GPT(ChatGPT)와 같은 AI의 글쓰기 능력이 학생 과제물 평가에 큰 도전이 되고 있다고 지적했다. 이러한 배경에서 최근 한 연구팀이 초임 교사(89명)와 경력 교사(200명)를 대상으로 흥미로운 실험을 진행했다. 과연 교사들은 AI가 쓴 글과 학생이 쓴 글을 구분할 수 있을까?

정교하게 설계된 실험

연구팀은 ‘학생 인벤토리'(Student Inventory)라는 디지털 도구를 활용해 실험을 진행했다. 화면을 분할해 한쪽에는 평가할 텍스트를, 다른 쪽에는 평가 항목을 배치했다. 토플(TOEFL) iBT 작문 평가 기준(0-5점)을 사용해 텍스트의 품질을 구분했으며, 낮은 품질(2점)과 높은 품질(4점)의 텍스트를 각각 준비했다. 교사들은 언어, 구조, 내용 세 가지 측면에서 평가를 진행했다.

충격적인 실험 결과

결과는 충격적이었다. 초임 교사들은 AI가 작성한 텍스트를 겨우 45.1%만 정확히 식별했고, 학생이 쓴 글도 53.7%만 맞출 수 있었다. 카이제곱 검정 결과, 텍스트 품질 수준별로도 유의미한 차이가 없었다. 특히 저품질 텍스트의 경우 AI 작성본을 정확히 식별한 비율이 40.2%에 그쳤다.

경력 교사도 판별 어려워

경력 교사들의 결과도 크게 다르지 않았다. 특히 흥미로운 점은 교사들의 자신감이었다. 교사들은 AI 생성 텍스트에 대해 77.3%, 학생 작성 텍스트에 대해 76.9%의 높은 판단 신뢰도를 보였지만, 실제 정확도는 이에 크게 미치지 못했다. 특히 Study 2에 참여한 교사들 중 93%가 현직 교사였고, 61.5%가 영어 교사였으며, 대부분이 영국과 북미 출신의 원어민이었다는 점을 고려하면 더욱 놀라운 결과다.

AI는 어떤 점수를 받았나?

더욱 흥미로운 사실은 AI가 생성한 고품질 텍스트가 학생이 작성한 텍스트보다 더 높은 평가를 받았다는 점이다. 텍스트의 품질과 실제 작성자 간의 상호작용을 분석한 결과, AI는 특히 고품질 텍스트 생성에서 뛰어난 성과를 보였다. 언어, 구조, 내용 모든 측면에서 AI 텍스트가 일관되게 높은 점수를 받았다.

교육 현장의 새로운 도전

이러한 연구 결과는 교육계에 중요한 시사점을 던진다. 현재의 AI 감지 소프트웨어만으로는 이 문제를 해결하기 어렵다. 예를 들어 오픈AI의 AI 분류기는 많은 학생 텍스트를 잘못 분류하는 것으로 나타났다. 연구진은 평가 기준의 근본적인 재설계가 필요하다고 주장한다.

해결책은 무엇인가?

연구진은 이러한 문제를 해결하기 위한 여러 방안을 제시했다. 우선 교육 방식의 근본적인 변화가 필요하다고 주장한다. 단순히 정보를 암기하고 재생산하는 방식에서 벗어나, AI가 쉽게 복제할 수 없는 비판적 사고력과 문헌 검토 능력을 키우는 데 중점을 둬야 한다는 것이다.

평가 방식도 혁신이 필요하다. 기존의 필기 시험만으로는 학생들의 실제 이해도를 정확히 평가하기 어렵기 때문에, 구술 시험을 보완적으로 도입할 것을 제안한다. 또한 학생들에게 학문적 진실성의 중요성과 AI를 책임감 있게 활용하는 방법을 가르치는 포괄적인 교육이 시급하다고 강조한다.

장기적으로는 AI 리터러시와 비판적 사고 능력을 정규 교육과정에 통합하는 것이 필요하다. 이는 단순히 AI를 피하거나 차단하는 것이 아니라, AI 시대에 맞는 새로운 교육 패러다임을 구축하는 것을 의미한다.

기사에 인용된 리포트의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




“학생이 쓴 걸까, AI가 쓴 걸까?” – 현직 교사도 못 알아보는 ChatGPT 글쓰기의 실체 – AI 매터스