Search

수업 자료 만들 때 쓰기 좋은 AI 모델은 딥시크? 모델마다 품질 천차만별

수업 자료 만들 때 쓰기 좋은 AI 모델은 딥시크? 모델마다 품질 천차만별
이미지 출처: 이디오그램

홍콩 ISF 아카데미(The ISF Academy) 소속 류신청(Xincheng Liu)이 발표한 연구가 교육계의 주목을 받고 있다. 이 연구는 챗GPT, 클로드, 제미나이 등 5개 AI 챗봇으로 똑같은 수업 자료를 만들어봤더니, 어떤 AI를 쓰느냐에 따라 글의 난이도와 내용 정확도가 크게 달라진다는 사실을 밝혀냈다.

요즘 많은 교사가 수업 준비 시간을 줄이려고 AI를 활용하는데, 어떤 AI를 선택하고 어떻게 질문하느냐가 수업 자료의 품질을 좌우한다는 것이다. 이 연구는 단순히 “AI가 편리하다”는 수준을 넘어, AI 교육 도구 선택이 실제 수업 품질에 어떤 영향을 미치는지를 구체적인 데이터로 보여준다는 점에서 의미가 크다.

딥시크는 고등학생에게 적합, 클로드는 대학생 이상 수준으로 상당히 어렵다

연구 논문에 따르면, 챗GPT(GPT-5), 클로드 소네트 4.5, 제미나이 2.5 플래시, 딥시크 V3.2, 그록 4 등 5개 AI에게 모두 똑같은 질문을 던졌다. “고등학교 물리 시간에 쓸 ‘전자기파’ 수업 자료를 60분 분량으로 만들어달라”는 내용이었다. 그런데 결과물을 분석해 보니 AI마다 글의 어려운 정도가 전혀 달랐다.

딥시크가 만든 수업 자료는 고등학생이 읽기에 가장 적합한 쉬운 글이었다. 반면 클로드가 만든 자료는 대학생 이상이 읽는 수준으로 상당히 어려웠다. 문장도 길고 어려운 단어도 많아서 고등학생은 물론 선생님들도 이해하기 어려운 수준이었다.

챗GPT와 제미나이는 중간 정도로 고등학생이 읽기에 적당한 난이도였다. 그록은 조금 어려운 편이었다. 흥미로운 점은 질문 방식보다는 AI 모델 자체가 난이도에 더 큰 영향을 미친다는 것이다. TAG, RACE, COSTAR라는 세 가지 질문 방식을 써봤는데, 질문 방식을 바꾸는 것보다 어떤 AI 모델을 선택하느냐가 글의 어려운 정도를 결정하는 주요 요인이었다. 결국 수업 자료가 얼마나 쉬운지는 어떤 AI를 선택하느냐에 달려 있다는 결론이다. 학생들이 직접 볼 자료를 만든다면 딥시크나 챗GPT처럼 쉽게 쓰는 AI를 골라야 한다.

RACE 방식으로 질문하면 정확도 높아져… 질문 구조가 내용 품질 결정

수업 자료의 내용이 얼마나 정확한지 조사한 결과에서는 질문하는 방식이 중요한 역할을 했다. 연구팀은 각 수업 자료에서 물리 공식, 상수(빛의 속도 같은 고정된 숫자), 개념 설명이 맞는지 확인했다. 틀린 내용이나 빠진 내용이 있으면 점수를 깎았다.

RACE 방식으로 질문했을 때 만들어진 자료가 가장 정확했다. TAG 방식과 COSTAR 방식은 그보다 정확도가 떨어졌다. RACE 방식은 AI에게 “당신은 고등학교 물리 선생님입니다”라고 역할을 정해주고, 반드시 포함해야 할 내용을 구체적으로 지시하는 방식이다. 이렇게 하면 파장과 진동수 관계식, 빛의 속도, 플랑크 상수 같은 중요한 물리 개념이 빠지지 않고 들어간다. 반면 COSTAR 방식은 글의 분위기나 말투에 신경을 쓰다 보니 정작 중요한 내용이 빠지는 경우가 많았다.

AI 모델별로 보면 그록이 가장 믿을 만한 내용을 만들었다. 챗GPT와 제미나이도 준수한 편이었다. 딥시크는 글은 쉬웠지만 필수 내용이 자주 빠졌다. 정확하고 빠짐없는 수업 자료를 원한다면 RACE 방식 질문과 그록이나 챗GPT 같은 모델을 함께 쓰는 게 좋다.

클로드와 그록은 알아서 교육과정 반영… 지시 안 해도 미국 과학 표준 자동 적용

놀라운 발견도 있었다. 일부 AI는 특별히 시키지 않았는데도 미국 교육과정 기준에 맞는 수업 목표를 스스로 만들었다. 클로드가 만든 세 개 자료 모두 미국 차세대 과학 표준(NGSS) 항목을 명확하게 언급했고, 그록도 두 개 자료에서 교육과정 기준을 표시했다. 연구팀이 수업 목표와 교육과정 기준이 얼마나 비슷한지 분석한 결과, 클로드가 교육과정과 가장 잘 맞았다. 그록과 챗GPT도 준수한 수준이었고, 딥시크와 제미나이는 상대적으로 낮았다.

질문 방식으로 보면 RACE가 교육과정과 가장 잘 맞았고, TAG와 COSTAR가 뒤를 이었다. 모든 자료가 파장, 진동수, 속도 관계를 다루는 기초 기준과는 잘 맞았지만, 전자기파 모델링이나 실생활 응용처럼 복잡한 내용을 다루는 기준과는 잘 맞지 않았다. 이는 AI가 기본 물리 개념은 잘 이해하지만, 여러 분야를 연결하거나 복잡한 사고가 필요한 내용은 스스로 만들어내지 못한다는 뜻이다. 교육과정 기준을 철저히 지키려면 질문할 때 구체적인 기준을 명시해서 요청해야 한다.

15개 자료 모두 ‘외우기·이해하기’ 수준… 분석·창조 같은 높은 단계 목표는 거의 없어

블룸의 교육목표 분류법이라는 기준으로 수업 목표의 수준을 분석했다. 이 분류법은 학습 목표를 6단계로 나누는데, 1단계는 ‘기억하기(외우기)’, 2단계는 ‘이해하기’, 3단계는 ‘적용하기’, 4단계는 ‘분석하기’, 5단계는 ‘평가하기’, 6단계는 ‘창조하기’다. 높은 단계일수록 깊은 사고가 필요하다.

15개 수업 자료의 학습 목표를 뽑아서 분석해 보니, ‘기억하기’와 ‘이해하기’ 같은 낮은 단계 동사가 압도적으로 많았다. 챗GPT, 클로드, 딥시크는 ‘이해하기’ 동사 비율이 상대적으로 높아서 개념 이해에 초점을 맞췄다. 하지만 제미나이와 그록은 ‘기억하기’ 동사가 많아서 단순 암기에 집중했다. ‘적용하기’ 동사는 가끔 나타났고, ‘분석하기’, ‘평가하기’, ‘창조하기’ 같은 높은 단계 동사는 거의 없었다.

모든 AI 모델이 블룸 분류법의 하위 2단계에 머물렀다. 이는 AI가 교과서나 학습지 같은 전통 교육 자료로 학습했기 때문이다. 이런 자료들은 대부분 사실 암기와 개념 이해를 강조하는 쉬운 동사로 가득하다.

문제는 수업 목표가 실제 수업 활동과 시험 문제를 결정한다는 점이다. 암기와 이해 중심 목표만 있으면 학생들의 비판적 사고나 창의적 문제 해결 능력을 키우기 어렵다. 연구팀은 AI로 수업 자료를 만들려는 선생님들이 반드시 “분석하기 목표 한 개, 창조하기 목표 한 개를 포함하고, 이에 맞는 활동과 평가를 만들어달라”고 구체적으로 요청해야 한다고 강조했다. AI는 시키지 않으면 높은 수준 목표를 스스로 만들지 않는다.

완벽한 AI는 없다… 목적에 맞게 조합해서 써야

이번 연구가 주는 가장 중요한 교훈은 “어떤 AI가 최고다”가 아니라 “어떻게 조합하느냐”가 중요하다는 점이다. 글의 쉬운 정도, 내용 정확도, 교육과정 반영, 사고력 수준 등 네 가지 기준 모두에서 완벽한 AI는 없었다. 딥시크는 글은 쉽지만 내용이 자주 빠지고, 클로드는 교육과정은 잘 반영하지만 글이 너무 어렵다. 그록은 정확하지만 읽기 어렵다. 그래서 선생님들은 자신의 수업 목표와 학생 수준에 맞춰 AI와 질문 방식을 골라 써야 한다.

연구팀이 제시한 최고의 조합은 “딥시크(쉬운 글) + RACE 질문 방식(정확한 내용) + 구체적인 체크리스트(교육과정·높은 사고력 목표)”다. 체크리스트에는 반드시 포함할 물리 개념, 교육과정 기준, 높은 단계 동사를 적어야 한다. 이 조합을 쓰면 선생님이 나중에 고칠 부분이 줄어들고, 내용도 정확하며, 단순 암기를 넘어선 사고력 목표까지 이룰 수 있다.

더 나아가 이번 연구는 AI가 만든 교육 자료를 무조건 믿으면 안 된다는 경고도 담고 있다. AI는 문법도 맞고 논리적으로 보이는 자료를 빠르게 만들지만, 실제 교육적 논리는 부실할 수 있다. 활동 순서가 점점 어려워지지 않거나, 학생 이해도를 확인하는 과정이 없거나, 수준이 다른 학생들을 위한 맞춤 전략이 빠진 경우가 많다. 그래서 AI 수업 자료는 시작점일 뿐, 선생님의 검토와 수정이 반드시 필요하다.

FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. AI로 수업 자료를 만들 때 어떤 것을 골라야 하나요?

A1. 학생들이 직접 볼 자료라면 딥시크나 챗GPT처럼 쉽게 쓰는 AI를 고르세요. 내용이 정확해야 한다면 그록이나 클로드를 쓰되, 클로드는 글이 어려워서 나중에 고쳐야 합니다. 가장 좋은 방법은 딥시크로 초안을 만들고 RACE 질문 방식을 쓰는 것입니다.

Q2. 질문을 어떻게 해야 정확한 수업 자료를 받을 수 있나요?

A2. RACE 질문 방식을 쓰고, 반드시 넣어야 할 핵심 개념, 공식, 교육과정 기준을 구체적으로 알려주세요. 예를 들어 “파장과 진동수 관계식, 빛의 속도, NGSS 기준 포함해줘”처럼 자세히 요구하면 빠지는 내용을 줄일 수 있습니다.

Q3. AI 수업 자료가 암기 위주라는데, 사고력을 키우는 목표는 어떻게 넣나요?

A3. 질문할 때 “분석하기와 창조하기 수준 목표를 한 개씩 포함하고, 이에 맞는 활동과 평가를 만들어줘”라고 구체적으로 요청하세요. 예를 들어 “학생들이 전자기파 특성을 분석해서 실생활 기기를 설계하는 프로젝트”처럼 구체적으로 말해야 AI가 높은 수준 목표를 만듭니다.

해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: An Evaluation of the Pedagogical Soundness and Usability of AI-Generated Lesson Plans Across Different Models and Prompt Frameworks in High-School Physics

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

Image Not Found




수업 자료 만들 때 쓰기 좋은 AI 모델은 딥시크? 모델마다 품질 천차만별 – AI 매터스