유료와 무료, ChatGPT 3.5와 ChatGPT 4의 교실 내 형평성 비교

Equity in the Use of ChatGPT for the Classroom:

A Comparison of the Accuracy and Precision of ChatGPT 3.5 vs. ChatGPT4 with Respect to Statistics and Data Science Exams

무료 버전과 유료 버전 간 성능 차이가 학습 격차를 확대할 가능성

ChatGPT는 교육의 민주화를 위한 강력한 도구로 자리 잡고 있다. 하지만 ChatGPT 4(유료)와 ChatGPT 3.5(무료)의 성능 차이가 학생들 간 학습 기회를 불균등하게 만들고 있다는 연구 결과가 나왔다. 미국 서던메소디스트 대학교에서 진행된 이 연구는 통계학 및 데이터 과학 시험 문제를 통해 두 플랫폼의 정확도와 정밀도를 비교하며, 경제적 이유로 유료 버전에 접근하지 못하는 학생들이 학습 격차를 겪을 가능성을 지적한다.

연구는 경제적 격차 외에도 유료 버전을 사용하지 않는 다양한 이유를 언급한다. 예를 들어, 신용카드 정보 제공에 대한 우려, 사용 빈도에 따른 비용 부담, 그리고 일부 교실에서의 사용 금지 조치가 이에 해당한다. 이러한 이유들은 단순한 경제적 요인을 넘어 사용 접근성을 복합적으로 제한하고 있다.

Equity in the Use of ChatGPT for the Classroom A Comparison of the Accuracy and Precision of ChatGPT 35 vs ChatGPT4 with Respect to Statistics and Data Science Exams

시험에서 드러난 성능 차이

ChatGPT 4와 ChatGPT 3.5는 서로 다른 난이도의 통계 시험에서 테스트되었다. AP 통계 시험, 대학 입문 수준의 CAOS 시험, 고등학교 수준의 ACTM 시험, 그리고 박사 과정 통계학 시험에 걸쳐 두 모델의 정답률이 평가되었다. 연구에 따르면, ChatGPT 4는 모든 시험에서 ChatGPT 3.5를 능가하며 평균적으로 80% 이상의 정답률을 기록했다. 반면 ChatGPT 3.5는 50% 수준에 머물렀다.

시험별로 분석했을 때 ChatGPT 4는 ACTM 시험에서 100%, AP 통계 시험에서 81%, CAOS 시험에서 70%의 정답률을 보였다. 반면 ChatGPT 3.5는 각각 64%, 50%, 48%의 정답률을 기록하며 모든 시험에서 유료 버전에 크게 뒤처졌다. 특히 시각적 데이터를 포함한 문제에서 ChatGPT 4는 66%의 정답률을 보였으나, ChatGPT 3.5는 6%로 현저히 낮았다. 이 차이는 ChatGPT 3.5가 이미지 처리 기능을 지원하지 않는 데 기인한다.

문항 유형에 따른 성능 분석

연구진은 문제 유형(객관식, 주관식)과 이미지 포함 여부에 따라 성능을 세분화해 분석했다. ChatGPT 4는 이미지가 포함된 문제에서 압도적으로 우위를 보였으며, 객관식 문제에서도 ChatGPT 3.5보다 높은 정확도를 기록했다. 특히 30개의 이미지 포함 문제 중 ChatGPT 4는 18개를 맞혔지만, ChatGPT 3.5는 단 2개만 정답을 맞혔다. ChatGPT 3.5는 “이미지를 직접 읽을 수 없다”는 메시지를 반복하며 정확한 답변을 제공하지 못했다.

주관식 문제에서도 두 모델 간의 격차가 두드러졌다. ChatGPT 4는 82%의 주관식 문제를 해결한 반면 ChatGPT 3.5는 43%만 해결했다. 이는 복잡한 문제 해결 능력에서 유료 모델의 우수성을 보여준다.

교육 격차를 심화시키는 요인

이 연구는 ChatGPT 4의 유료 구독 모델이 학습 격차를 확대할 수 있음을 경고한다. 특히 경제적 어려움으로 인해 무료 버전만 사용할 수 있는 학생들은 저품질의 응답에 의존해야 하는 상황이다. 이러한 격차는 단순한 소득 문제를 넘어 시각 장애를 가진 학생들에게도 영향을 미친다. ChatGPT는 스크린 리더와 음성 텍스트 변환 기능을 지원하지만, 이를 통한 학습의 질은 이미지 기반 질문에서 여전히 제한적이다.

연구진은 또한 유료 서비스에 대한 신용카드 정보 제공에 대한 불안감과 사용 빈도에 따른 비용 부담 문제도 격차를 심화시키는 요인으로 꼽았다.

향후 과제와 개선 방향

ChatGPT의 차기 버전인 GPT-4o가 일부 유료 기능을 무료로 제공하면서 이러한 격차를 완화할 가능성이 제기되었다. GPT-4o는 이미지 인식 기능을 지원하며, 텍스트 음성 변환과 같은 접근성 기능도 개선되었다. 그러나 무료 사용자에게 메시지 전송 횟수 제한이 부과되어 여전히 근본적인 형평성 문제를 해결하기에는 부족할 수 있다.

또한 연구진은 Microsoft Co-Pilot, Google Gemini, Anthropic의 Claude와 같은 다른 AI 플랫폼과의 비교 연구 필요성을 제기했다. 초기 연구에서는 ChatGPT 4가 정확도 면에서 다른 플랫폼을 압도했지만, 유료 모델이 사용되지 않는 환경에서의 형평성 확보를 위한 대안으로 다양한 플랫폼 간 비교가 필요하다.

결론

ChatGPT 4는 무료 버전인 ChatGPT 3.5에 비해 명백히 우수한 성능을 보여주었다. 그러나 이러한 기술적 우수성이 경제적 이유로 유료 버전에 접근하지 못하는 학생들에게 학습 격차를 확대할 가능성이 있다. 연구진은 ChatGPT와 같은 생성형 AI 도구가 개인 교사의 역할을 수행할 수 있는 잠재력을 지닌 만큼, 이를 보다 공평하게 활용할 수 있는 방안을 모색해야 한다고 강조했다.

연구는 또한 ChatGPT 4조차 18%의 질문에 대해 정확한 답변을 하지 못했으며, 일부 질문에서는 ChatGPT 3.5가 더 나은 답변을 제공했다는 점을 지적하며, AI 기술 전반의 한계를 논의했다. 이러한 한계를 극복하기 위한 추가 연구와 정책적 지원이 필요하다는 점이 강조되었다.

해당 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.