• Home
  • AI Report
  • GPT-4, 프로그래밍 과제도 채점한다… AI가 학생들의 코딩 실력 평가

GPT-4, 프로그래밍 과제도 채점한다… AI가 학생들의 코딩 실력 평가

You're (Not) My Type – Can LLMs Generate Feedback of Specific Types for Introductory Programming Tasks?
이미지출처: 미드저니 생성

You’re (Not) My Type – Can LLMs Generate Feedback of Specific Types for Introductory Programming Tasks?

AI가 코딩 실수를 찾아내고 조언까지 제공

교육 연구에 따르면 피드백은 학습 성공에 가장 큰 영향을 미치는 요소 중 하나다. 특히 프로그래밍을 시작하는 학생들에게 적절한 피드백은 필수적이다. 하지만 현재 대부분의 프로그래밍 학습 환경들은 단순한 정오답 판단이나 기본적인 오류 메시지만 제공할 뿐, 학생들이 실제로 필요로 하는 상세한 피드백은 제공하지 못하고 있다. 프로그래밍을 시작하는 학생들이 겪는 가장 큰 어려움 중 하나 역시 자신의 코드가 왜 틀렸는지 이해하기 어렵다는 점이다.

이러한 배경에서 독일 프리드리히-알렉산더 대학교와 유트레히트 대학교 연구진은 GPT-4를 활용한 새로운 피드백 시스템을 개발했다. 연구진은 최근 GPT-4를 활용해 학생들의 프로그래밍 과제를 자동으로 평가하고 맞춤형 조언을 제공하는 실험을 진행했다.

체계적인 연구 설계와 방법

연구진은 정확한 피드백 생성을 위해 5번의 반복적인 프롬프트 개선 과정을 거쳤다. 이 과정에서 연구팀은 피드백의 858가지 특성을 세밀하게 분석했으며, 학생들이 이해하기 쉬운 언어로 피드백이 제공되도록 프롬프트를 조정했다.

“틀렸습니다”를 넘어선 상세한 피드백 제공

기존의 프로그래밍 학습 시스템들은 대부분 “맞았습니다” 또는 “틀렸습니다”와 같은 단순한 결과만 보여주는 데 그쳤다. 하지만 GPT-4는 단순히 정오답 판단을 넘어 다음과 같은 다양한 피드백을 제공할 수 있었다. 코드의 문제점을 상세히 설명하고, 개선을 위한 구체적인 조언을 제시했다. 또한 학생들이 어려워하는 프로그래밍 개념을 설명하고, 과제 요구사항과의 부합 여부를 분석하며, 전반적인 진행 상황까지 평가할 수 있었다.

연구팀은 이러한 피드백을 크게 단순(simple) 피드백과 상세(elaborate) 피드백으로 분류했다. 단순 피드백은 정답 여부나 성과 점수와 같은 기본적인 정보를 제공하는 반면, 상세 피드백은 과제 제약조건 설명, 개념 해설, 오류 분석, 해결 방안 제시 등 더 깊이 있는 내용을 담는다. GPT-4는 이러한 다양한 유형의 피드백을 모두 생성할 수 있었다.

인공지능의 피드백은 얼마나 정확할까?

연구팀이 Java, Python, C++, Kotlin 등 4개 프로그래밍 언어로 작성된 11개의 학생 과제물에 대해 실험한 결과, GPT-4는 66건의 피드백 요청 중 63건에서 적절한 피드백을 제공했다. 흥미로운 점은 19개 사례에서 요청하지 않은 추가 피드백이 포함되어 있었다는 것이다. 또한 피드백에서 동기부여적 요소가 거의 없었고, 이전 연구들과 달리 불확실성 표현이나 추가 정보 요청이 없었다는 특징도 발견되었다.

연구의 한계와 과제

이 연구는 주로 수학적 함수를 다루는 기초 프로그래밍 과제에 국한되었고, GPT-4라는 단일 모델만을 사용했다는 제한점이 있다. 가끔 잘못된 정보를 제공하거나 피드백 유형이 뒤섞이는 등의 한계도 발견되었다.

AI 활용의 실용적 의의

이 연구는 특히 대규모 온라인 강좌(MOOC)에서 큰 잠재력을 보여준다. 수백, 수천 명의 학생들에게 일일이 개별 피드백을 제공하기 어려웠던 기존의 한계를 AI로 극복할 수 있기 때문이다. 또한 교수자들의 반복적인 피드백 업무를 줄여주어, 더 중요한 교육 활동에 집중할 수 있게 해준다.

AI 시대의 프로그래밍 교육

연구진들은 AI를 활용한 프로그래밍 교육의 미래에 대해 낙관적인 전망을 내놓았다. 다만 AI가 교수자를 완전히 대체하기보다는, 기존 교육 시스템과 결합하여 보다 효과적인 학습 지원 도구로 활용될 것으로 예측했다. 이는 AI가 때때로 제공하는 잘못된 정보를 교수자가 걸러내고 보완할 필요가 있기 때문이다.

이를 위해 테스트 케이스와 AI 피드백을 결합한 하이브리드 시스템 개발, 학생 개개인의 수준과 선호도에 맞춘 맞춤형 피드백 제공, 다양한 프로그래밍 언어와 과제 유형에 대한 지원 확대가 필요하다고 제안했다.

연구의 시사점

이번 연구는 AI가 프로그래밍 교육에서 가져올 수 있는 혁신적 변화를 보여준다. AI는 각 학생에게 맞춤형 피드백을 제공할 수 있으며, 단순한 평가를 넘어 상세한 설명과 조언까지 제공할 수 있다. 비록 완벽하지는 않지만 대체로 신뢰할 만한 수준의 피드백을 생성할 수 있다는 점이 확인되었다. 특히 교수자와 AI가 협력적으로 활용될 때 가장 효과적인 교육 성과를 얻을 수 있을 것으로 기대된다.

기사에 인용된 논문의 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




GPT-4, 프로그래밍 과제도 채점한다… AI가 학생들의 코딩 실력 평가 – AI 매터스