대학생 47% “생성형 AI로 과제 작성”… AI 탐지 검출률은 88%뿐

Adapting University Policies for Generative AI: Opportunities, Challenges, and Policy Solutions in Higher Education
이미지 출처: 이디오그램 생성

Adapting University Policies for Generative AI
: Opportunities, Challenges, and Policy Solutions in Higher Education


챗GPT(ChatGPT)를 비롯한 대형 언어 모델(LLM)의 등장으로 고등교육 현장이 급격한 변화를 맞고 있다. 영국 버밍엄대학교(University of Birmingham) 컴퓨터과학과 러셀 빌(Russell Beale) 교수가 진행한 연구에 따르면, 학생의 46.9%가 과제 수행에 생성형 AI를 사용하고 있으며, 39%는 시험이나 퀴즈 문제 해결에, 7%는 과제 전체를 AI로 작성한 것으로 나타났다. 이런 상황에서 현재 AI 검출 도구의 정확도는 88%에 그쳐 12%의 오차가 발생하고 있어 대학들의 정책 마련이 시급한 상황이다.

생성형 AI 도구의 급속한 확산은 호주, 뉴질랜드, 영국, 미국 등 선진국 대학들로 하여금 연구와 교육, 평가 방식의 전면적 재검토를 요구하고 있다. 특히 학술적 진실성(Academic Integrity)과 공정한 교육 기회 제공이라는 핵심 가치를 지키면서도 AI 기술의 장점을 활용할 수 있는 정책 개발이 절실한 상황이다.

일대일 개인교습 효과 98% 향상… AI가 만드는 교육 혁신

생성형 AI는 학술 연구 전 분야에서 혁신적 변화를 이끌고 있다. 연구자들은 AI를 활용해 방대한 문헌 검토 작업을 가속화하고 있으며, 연구 아이디어 발굴과 연구 질문 정교화에도 적극 활용하고 있다. 특히 영어가 모국어가 아닌 연구자들에게 연구비 제안서와 논문 작성 지원 기능은 언어 장벽을 낮추는 중요한 역할을 하고 있다.

교육 현장에서도 AI 기반 가상 교육 조교(Virtual Teaching Assistant) 시스템이 도입되면서 대규모 강의에서도 개인화된 학습 지원이 가능해지고 있다. 컴퓨터 과학 과정에서 운영되는 ‘지피타(JeepyTA)’ 같은 시스템은 24시간 학생들의 질문에 답변하며 교수자의 업무 부담을 줄이고 있다. 또한 AI가 생성하는 적응형 피드백은 개별 학생의 수준에 맞춰 제공되어 학습 효과를 크게 높이고 있다.

블룸(Bloom)의 1984년 연구에 따르면 일대일 개인 교습을 받은 학생은 일반적인 수업을 받은 학생보다 평균 98% 향상된 성과를 보이며, 90%의 학생이 일반 수업에서는 상위 20%만 달성할 수 있는 수준에 도달했다. 생성형 AI는 이런 개인화된 교육을 대규모로 제공할 수 있는 잠재력을 보여주고 있다.

STEM 분야 학생이 더 선호… 남학생-고소득층 사용률 격차 심각

생성형 AI 활용 패턴은 학문 분야와 학생 특성에 따라 현저한 차이를 보이고 있다. STEM(과학·기술·공학·수학) 및 보건 관련 학과 학생들이 인문학이나 예술 분야 학생들보다 AI 도구를 더 적극적으로 사용하고 있다. STEM 분야 과제들이 문제 해결과 코딩 작업을 포함하고 있어 LLM의 기능과 자연스럽게 연결되기 때문이다.

더 심각한 문제는 성별과 사회경제적 격차다. 영국 고등교육정책연구소(HEPI)의 2025년 조사에 따르면 남학생과 높은 사회경제적 배경을 가진 학생들이 여학생이나 낮은 사회경제적 배경의 학생들보다 생성형 AI 도구를 훨씬 더 많이 사용하고 있다. 이런 격차는 기존 교육 불평등을 더욱 심화시킬 위험성을 내포하고 있다.

‘환각 현상’과 가짜 참고문헌… AI의 블랙박스 문제 심각

생성형 AI 사용의 가장 큰 우려는 학술 진실성의 침해다. 학생들이 AI를 사용해 과제를 작성하면서도 이를 공개하지 않는 경우, 제출된 과제와 학생의 실제 이해도 사이의 연결고리가 끊어진다. 이는 평가 과정을 무력화하고 학위의 가치를 떨어뜨린다.

또한 LLM의 ‘블랙박스’ 특성도 심각한 문제다. 이 모델들의 내부 작동 방식이 불투명해 AI가 생성한 콘텐츠의 정확성과 독창성을 검증하기 어렵다. 최근 연구들은 LLM이 그럴듯하지만 실제로는 존재하지 않는 참고문헌을 만들어내는 ‘환각(hallucination)’ 현상을 보고하고 있어, 인간의 감독과 검증이 반드시 필요함을 시사하고 있다.

러셀그룹 24개 대학 5대 원칙 제시… 실행 방안은 여전히 모호

이런 도전에 대응하기 위해 전문가들은 기존 평가 방식의 전면적 재설계를 제안하고 있다. 실시간 평가, 구술 시험, 과정 중심 평가 등 AI 남용이 어려운 방식으로의 전환이 핵심이다. 특히 학생들이 초안, 작업 일지, 성찰적 서술 등을 제출하도록 해 학습 과정을 문서화하는 방법이 주목받고 있다.

영국 러셀 그룹(Russell Group) 24개 연구중심 대학들은 윤리적 AI 사용, AI 리터러시 구축, 교육과 평가의 진화, 학술 진실성 유지, 모범 사례 공유 등 5대 원칙을 제시했다. 하지만 이런 원칙들이 실제 교육 현장에서 구체적으로 어떻게 적용되고 감시될 수 있는지에 대한 실행 방안은 여전히 모호한 상황이다.

전문가들은 AI 검출 도구와 인간 검토를 결합한 다층적 접근, 정기적인 정책 감사, 학생과 교직원을 위한 체계적인 AI 리터러시 교육 등을 종합적으로 실시할 것을 권고하고 있다. 무엇보다 혁신과 진실성의 균형을 맞추는 것이 고등교육의 미래를 결정하는 핵심 과제가 될 것으로 전망된다.

FAQ

Q: 생성형 AI를 사용해서 과제를 작성하면 왜 문제가 될까요?

A: 생성형 AI로 과제를 작성하면 학생의 실제 이해도와 제출한 과제 사이의 연결이 끊어집니다. 이는 평가의 목적인 학습 성과 측정을 불가능하게 만들고, 결과적으로 학위의 신뢰성을 떨어뜨리게 됩니다.

Q: AI 검출 도구는 얼마나 정확한가요?

A: 현재 AI 검출 도구의 정확도는 약 88%로, 12%의 오차가 발생합니다. 특히 영어가 모국어가 아닌 학생들의 글을 AI 생성 텍스트로 잘못 판단하는 경우가 있어 추가적인 인간 검토가 필요합니다.

Q: 대학에서 생성형 AI를 어떻게 활용하면 좋을까요?

A: 생성형 AI는 아이디어 브레인스토밍, 초안 작성, 언어 편집, 개념 이해 보조 등의 용도로 활용할 수 있습니다. 단, 전체 과제를 AI로 작성하거나 사용 사실을 숨기는 것은 금지되며, 반드시 사용 내역을 공개해야 합니다.

해당 기사에 인용한 논문 원문은 arvix에서 확인 가능하다.

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.




대학생 47% “생성형 AI로 과제 작성”… AI 탐지 검출률은 88%뿐 – AI 매터스 l AI Matters