That’s Not the Feedback I Need!
– Student Engagement with GenAI Feedback in the Tutor Kai
독일 지겐대학교(University of Siegen)와 뉘른베르크 공과대학교(Nuremberg Tech) 연구진이 프로그래밍 교육에서 생성형 AI 피드백의 실제 효과를 검증하기 위해 연구를 실시했다. 연구진은 대형 언어모델(Large Language Model) 기반 AI 도구들이 프로그래밍 교육에 도입되고 있지만, 학생들이 실제로 이 피드백을 어떻게 활용하는지에 대한 실증적 연구가 부족하다는 점에 착안했다. 이에 따라 맞춤형 웹 애플리케이션 ‘튜터 카이(Tutor Kai)’를 개발하고, 아이트래킹과 발화 분석 프로토콜을 통해 학생들의 AI 피드백 활용 패턴을 심층 분석했다.
경험 부족한 학생들은 AI 피드백에 두 배 더 집중한다
해당 연구 논문에 따르면, 연구진이 11명의 대학생을 대상으로 아이트래킹(eye-tracking)과 발화 분석 프로토콜을 통해 분석한 결과, 프로그래밍 경험이 없는 학생들이 생성형 AI 피드백에 시각적 주의를 기울이는 시간이 경험이 있는 학생들보다 두 배 가량 긴 것으로 나타났다. 전체적으로 학생들은 코드 편집기에 53.91%의 시각적 주의를 기울였으며, 생성형 AI 피드백에는 23.79%의 시간을 할애했다. 이는 컴파일러 피드백에 집중한 시간(7.00%)보다 3배 이상 긴 시간이다.
특히 프로그래밍 경험이 부족한 학생들은 AI 피드백에 30.71%의 시간을 할애한 반면, 경험이 있는 학생들은 15.49%만 집중했다. 반대로 컴파일러 피드백의 경우, 경험이 있는 학생들이 9.35%의 시간을 할애해 경험이 부족한 학생들(5.05%)의 거의 두 배에 달했다. 이러한 패턴은 초보자들이 전통적인 오류 메시지보다 자연어로 제공되는 AI 피드백을 선호함을 보여준다.
AI 피드백 이해도 격차: 초보자 20.6% vs 숙련자 1.6% 이해 실패
연구에서 분석한 171개의 생성형 AI 피드백 중 49.7%가 실제로 문제 해결에 도움이 된 것으로 나타났다. 하지만 경험 수준에 따른 차이는 상당했다. 프로그래밍 경험이 있는 학생들은 AI 피드백의 60.9%를 효과적으로 활용한 반면, 경험이 부족한 학생들은 43.0%만이 도움을 받았다.
더욱 주목할 점은 경험이 부족한 학생들이 받은 107개의 AI 피드백 중 22개(20.6%)를 이해하지 못했다는 것이다. 반면 경험이 있는 학생들은 64개의 피드백 중 단 1개(1.6%)만 이해하지 못했다. 이는 AI가 제공하는 피드백이 기본적인 프로그래밍 개념에 대한 이해를 전제로 한다는 것을 의미한다.
경험이 있는 학생들은 평균적으로 28% 적은 AI 피드백을 요청했지만(64개 vs 107개), 더 효과적으로 활용했다. 반면 초보자들은 더 많은 AI 도움을 구했지만 실제 문제 해결에는 상대적으로 어려움을 겪었다.
초보자 39.5%가 컴파일러 오류를 아예 읽지 않는 위험한 현실
연구에서 가장 우려스러운 발견 중 하나는 프로그래밍 경험이 부족한 학생들이 컴파일러 피드백을 읽지 않고 즉시 AI 피드백을 요청하는 패턴이었다. 129개의 컴파일러 피드백 메시지 중 39.5%가 초보자들에 의해 읽히지 않았다. 이들은 컴파일러가 제공하는 오류 메시지를 분석하는 대신 AI에게 즉시 도움을 요청했다.
컴파일러 피드백의 도움 정도를 분석한 결과, 경험이 있는 학생들에게는 25.9%가 도움이 된 반면 초보자들에게는 7%만이 유용했다. 이는 전통적인 디버깅 스킬 개발에 대한 우려를 제기한다. 컴파일러 오류 메시지를 해석하는 능력은 프로그래밍의 기본 역량 중 하나인데, AI에 의존하는 패턴이 이러한 기본 스킬 습득을 방해할 수 있기 때문이다.
연구진은 이러한 패턴이 지속될 경우 학생들이 컴파일러 출력을 올바르게 해석하는 방법을 배우지 못할 위험이 있다고 지적했다. 동시에 AI 지원이 보편화되는 미래에는 컴파일러 메시지 해석이 더 이상 필요하지 않을 수도 있다는 반대 의견도 제시했다.
AI가 도움 안 되는 4가지 이유: 개념 부족부터 문법 미숙까지
연구진이 도움이 되지 않았던 77개의 AI 피드백 사례를 분석한 결과, 네 가지 주요 문제점을 발견했다.
첫 번째는 학생들이 피드백을 잘못 해석하는 등 다양한 원인이 복합적으로 작용한 25개 사례였다.
두 번째로 많은 문제는 피드백이 학생에게 이해되지 않는 경우로 23개 사례가 해당했다. 이 중 22개가 경험이 부족한 학생들에게서 발생했다. AI가 ‘루프(loop)’와 같은 기본 개념을 충분한 설명이나 예시 없이 언급할 때 초보자들은 이해하지 못했다.
세 번째는 17개 사례로, 학생들이 의미적 해결책은 이해했지만 필요한 파이썬(Python) 문법을 모르는 경우였다. AI 피드백이 코드 예시를 제공하지 않아 학생들이 “내가 필요한 피드백이 아니다”라고 표현했다. 마지막으로 13개 사례에서는 AI의 오류 위치 지적이 충분히 정확하지 않아 들여쓰기 오류 등을 학생들이 찾기 어려웠다.
흥미롭게도 학생들의 AI 피드백에 대한 주관적 평가는 매우 긍정적이었다. 10점 만점에 평균 8.59점을 기록했으며, 어떤 학생도 7점 미만으로 평가하지 않았다. 하지만 실제 도움 정도와 인식된 도움 정도 사이에는 복잡한 관계가 있음을 연구진은 지적했다.
FAQ
Q: 생성형 AI가 프로그래밍 교육에서 완전히 컴파일러 피드백을 대체할 수 있나요?
A: 현재 연구 결과로는 어렵습니다. AI 피드백은 자연어로 설명을 제공하는 장점이 있지만, 프로그래밍 기초 지식이 없는 학생들에게는 여전히 이해하기 어려운 경우가 많습니다. 또한 초보자들이 컴파일러 오류 메시지를 읽지 않는 패턴은 전통적인 디버깅 스킬 개발을 방해할 수 있어 균형 잡힌 접근이 필요합니다.
Q: 프로그래밍 초보자가 AI 피드백을 더 효과적으로 활용하려면 어떻게 해야 하나요?
A: 먼저 기본적인 프로그래밍 개념을 충분히 학습해야 합니다. 연구에 따르면 경험이 부족한 학생들은 AI 피드백의 20.6%를 이해하지 못했습니다. 또한 컴파일러 피드백을 먼저 읽고 분석한 후 AI 도움을 요청하는 습관을 기르는 것이 중요합니다. AI는 보조 도구로 활용하되 기본 디버깅 스킬도 함께 개발해야 합니다.
Q: AI 피드백의 품질을 개선하려면 어떤 점이 필요한가요?
A: 학생의 경험 수준에 맞춘 맞춤형 피드백이 핵심입니다. 초보자에게는 기본 개념에 대한 충분한 설명과 구체적인 코드 예시를 제공해야 하고, 오류 위치를 더 정확하게 지적해야 합니다. 또한 학생들이 컴파일러 피드백을 먼저 확인하도록 유도하는 시스템 설계가 필요합니다.
해당 기사에 인용된 논문은 arxiv에서 확인 가능하다.
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.