생성형 AI, 대학 평가의 판도를 바꾸다

Developing robust assessment in the light of Generative AI developments
이미지 출처: 미드저니 생성

Developing robust assessment in the light of Generative AI developments

인공지능(AI) 기술의 급속한 발전으로 교육계가 큰 변화를 맞이하고 있다. 특히 생성형 AI(Generative AI)의 등장은 대학 평가 시스템에 새로운 도전과 기회를 동시에 제공하고 있다. 최근 영국 오픈대학교(The Open University)와 NCFE(National Council for Further Education)가 공동으로 수행한 대규모 연구는 GAI가 대학 평가에 미치는 영향을 심도 있게 분석하고, 이에 대한 대응 방안을 제시해 주목받고 있다.

생성형 AI의 놀라운 성능, 대학 평가의 신뢰성 위협

이번 연구에서 가장 주목할 만한 결과는 생성형 AI의 우수한 성능이다. 연구진은 59개의 다양한 유형의 평가 문제에 대해 GAI가 생성한 답변을 분석했다. 그 결과, 58개 문제에서 생성형 AI는 합격 수준의 답변을 생성했으며, 일부 문제에서는 매우 높은 점수를 받았다.

특히 3학년(영국 대학 기준) 수준의 문제에서 생성형 AI의 성능이 가장 뛰어났으며, 4학년, 5학년, 6학년으로 올라갈수록 점수가 점진적으로 낮아지는 경향을 보였다. 이는 생성형 AI가 기초적인 지식을 요구하는 문제에서 더 뛰어난 성능을 발휘하며, 고차원적 사고력이 필요한 고학년 문제에서는 상대적으로 약점을 보인다는 것을 시사한다.

학문 분야별로는 생성형 AI의 성능 차이가 크게 나타나지 않았다. 이는 생성형 AI가 특정 분야에 국한되지 않고 광범위한 지식을 갖추고 있음을 보여준다. 다만, 법학이나 언어학과 같은 특정 분야에서는 생성형 AI의 답변이 쉽게 탐지되는 경향이 있었다. 예를 들어, 법학에서는 생성형 AI가 다른 국가의 법률을 인용하거나 오래된 법률을 참조하는 등의 실수를 범했다.

생성형 AI 탐지 훈련의 효과와 한계

연구진은 채점자들을 대상으로 생성형 AI가 생성한 답변을 탐지하는 훈련을 실시했다. 훈련 전후의 탐지 능력을 비교한 결과, 훈련 후 채점자들의 생성형 AI 답변 탐지 능력이 전반적으로 향상되었다. 그러나 동시에 ‘거짓 양성'(false positive) 사례도 증가했다. 즉, 실제 학생이 작성한 답안을 생성형 AI가 생성한 것으로 잘못 판단하는 경우가 늘어난 것이다.

이러한 결과는 생성형 AI 탐지에 있어 중요한 시사점을 제공한다. 생성형 AI 탐지 능력 향상은 긍정적이지만, 거짓 양성의 증가는 학생들에게 불이익을 줄 수 있는 심각한 문제다. 특히 학업 성취도가 낮거나 영어가 모국어가 아닌 학생들의 답안이 생성형 AI로 오인될 가능성이 높아, 이들에 대한 불공정한 평가로 이어질 수 있다.

한 채점자는 다음과 같이 언급했다: “생성형 AI의 특징을 인식하도록 훈련받은 후에는 그러한 특징들이 어디에나 있는 것처럼 보이기 시작했습니다. 실제 학생들의 답안에서도 말이죠.”

평가 설계의 혁신: 생성형 AI 시대의 새로운 접근법

연구진의 분석 결과, 생성형 AI 시대에 적합한 새로운 평가 방식의 필요성이 명확히 드러났다. 이에 따라 연구팀은 생성형 AI의 특성을 고려한 혁신적인 평가 설계 방안을 제시했다. 이 접근법의 핵심은 생성형 AI의 강점과 약점을 정확히 이해하고, 이를 평가 문제와 채점 기준에 전략적으로 반영하는 것이다.

첫째, ‘진정성 있는 평가'(authentic assessment)의 중요성이 더욱 부각되었다. 연구 결과, 생성형 AI는 학습자의 실제 관찰 능력, 구체적인 활동 계획 수립, 특정 청중을 대상으로 한 맞춤형 의사소통 등 실제적이고 개인화된 과제에서 상대적으로 낮은 성능을 보였다. 이는 이러한 유형의 평가가 생성형 AI 시대에 학생들의 실제 능력을 더 정확하게 측정할 수 있음을 시사한다. 따라서 대학들은 이러한 ‘진정성 있는 평가’ 방식을 더욱 강화할 필요가 있다.

둘째, 생성형 AI의 특성을 고려한 문제 설계가 중요하다. 연구진은 생성형 AI가 취약점을 보이는 영역을 파악하고, 이를 문제 설계에 적극 반영할 것을 제안했다. 예를 들어, 수업에서 다룬 특정 모듈 자료의 구체적 적용을 요구하거나, 학생 개인의 경험과 의견을 뒷받침하는 구체적인 증거 제시를 요구하는 등의 방식이 효과적일 수 있다. 이러한 접근은 생성형 AI가 쉽게 답변하기 어려운 동시에, 학생들의 실제 학습 성과를 더 정확히 평가할 수 있는 방법이 될 것이다.

셋째, 명확하고 엄격한 채점 기준의 수립이 필요하다. 생성형 AI의 약점을 정확히 반영한 구체적이고 세밀한 채점 기준을 마련해야 한다. 이를 통해 채점자들은 생성형 AI가 생성한 답변이나 학생들이 생성형 AI를 부적절하게 사용한 경우를 더 쉽게 식별하고, 그에 따라 낮은 점수를 부여할 수 있다. 이는 학생들이 생성형 AI에 과도하게 의존하는 것을 방지하고, 자신의 실제 능력을 개발하도록 유도하는 효과가 있을 것이다.

마지막으로, AI 리터러시 교육의 강화가 필수적이다. 학생들에게 AI의 적절한 사용법과 그 한계에 대한 체계적인 교육을 제공해야 한다. 이는 단순히 생성형 AI 사용을 금지하는 것이 아니라, 학생들이 AI 기술을 윤리적이고 효과적으로 활용할 수 있는 능력을 키우는 것을 목표로 한다. 이러한 교육은 학생들의 AI 활용 능력을 향상시키는 동시에, 부적절한 사용을 줄이는 데 크게 기여할 것이다.

이러한 종합적인 접근 방식은생성형 AI시대에 대학 평가의 신뢰성과 타당성을 높이는 동시에, 학생들의 실질적인 학습과 능력 개발을 촉진할 것으로 기대된다. 또한, 이는 단순한 지식 암기를 넘어 비판적 사고력, 창의성, 그리고 새로운 기술을 효과적으로 활용할 수 있는 능력을 키우는 현대 교육의 목표에도 부합한다.

향후 대학들은 이러한 권고사항을 바탕으로 자체적인 평가 체계를 재검토하고, 필요한 변화를 적극적으로 도입해야 할 것이다. 동시에 생성형 AI 기술의 빠른 발전 속도를 고려할 때, 지속적인 연구와 평가 시스템의 유연한 조정이 필요할 것으로 보인다. 이는 대학 교육의 질을 유지하고 향상시키는 데 있어 중요한 과제가 될 것이다.

연구를 주도한 한 교수는 “우리의 목표는 생성형 AI를 탐지하는 것이 아니라, 생성형 AI 시대에 적합한 평가 시스템을 구축하는 것입니다. 이는 학생들의 실제 능력과 창의성을 정확히 평가하고, 동시에 AI를 적절히 활용할 수 있는 능력을 키우는 방향이어야 합니다.”라고 강조했다.

결론 및 향후 과제

이번 연구는 생성형 AI가 대학 평가에 미치는 영향을 종합적으로 분석한 최초의 대규모 연구로, 교육계에 중요한 시사점을 제공한다. 생성형 AI의 우수한 성능은 기존 평가 방식의 근본적인 재검토가 필요함을 보여준다. 동시에 생성형 AI 탐지에만 집중하는 것은 효과적인 해결책이 될 수 없음을 확인했다.

향후 대학들은생성형 AI의 특성을 고려한 새로운 평가 체계를 개발하고, 학생들의 AI 리터러시를 향상시키는 데 주력해야 할 것이다. 또한, 생성형 AI 기술의 빠른 발전 속도를 고려할 때, 지속적인 연구와 평가 시스템의 유연한 조정이 필요할 것으로 보인다.

이 연구 결과는 생성형 AI 시대의 대학 교육이 단순한 지식 전달을 넘어, 비판적 사고력, 창의성, 그리고 AI를 포함한 새로운 기술을 효과적으로 활용할 수 있는 능력을 키우는 방향으로 나아가야 함을 시사한다. 이는 대학 교육의 새로운 패러다임 전환을 예고하는 것으로, 앞으로 교육계의 활발한 논의와 실험이 이어질 것으로 전망된다.

오픈대학교의 논문은 링크에서 확인할 수 있다.

본 기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




생성형 AI, 대학 평가의 판도를 바꾸다 – AI 매터스