생성형 AI, 법학 교육의 판도를 바꾸다

Generative artificial intelligence vs. law students: an empirical study on criminal law exam performance

생성형 AI의 급속한 발전이 교육계에 큰 파장을 일으키고 있다. 특히 법학 분야에서는 GPT-4가 미국 변호사 시험에서 상위 10% 성적을 거뒀다는 OpenAI의 발표 이후, AI의 잠재력에 대한 관심이 고조되고 있다. 그러나 실제 대학 교육 현장에서 AI의 성능은 어떨까? 이러한 의문에 답하고자 호주 울룽공 대학교(University of Wollongong) 법학과의 아민 알리마르다니(Armin Alimardani) 교수가 흥미로운 실험 연구를 수행했다.

AI, 법대생 평균 성적에는 미치지 못해

알리마르다니 교수는 GPT-4, GPT-3.5, Google Bard 등 다양한 AI 모델을 활용해 10개의 AI 답안을 생성하고, 이를 실제 학생들의 시험 답안과 비교 분석했다. 연구 결과, 현재의 생성형 AI 모델들은 대학 수준의 형법 시험에서 학생들의 평균 성적에 미치지 못하는 것으로 나타났다. AI 답안의 평균 점수는 60점 만점에 31.5점으로, 학생들의 평균인 39.73점보다 낮았다. 다만 가장 높은 점수를 받은 AI 답안은 47점으로 학생 평균을 크게 웃돌아, AI의 잠재력을 엿볼 수 있었다.

알리마르다니 교수는 이 결과에 대해 “OpenAI가 GPT-4의 미국 변호사 시험 성적을 강조한 것과 달리, 실제 대학 시험에서 AI의 성능은 그에 미치지 못했다”며 “기업들이 제시하는 AI 성능 벤치마크를 교육 현장에 그대로 적용하기는 어렵다”고 설명했다. 이는 AI 기업들이 제시하는 성능 지표를 교육 현장에서 그대로 받아들이는 것에 대한 경계의 목소리로 해석될 수 있다.

법적 분석력은 AI의 약점… 하지만 학생들도 어려워해

연구 결과 AI 답안의 가장 큰 약점은 정교한 법적 분석 능력 부족으로 나타났다. AI는 단답형이나 짧은 에세이 문제에서는 비교적 좋은 성과를 보였지만, 복잡한 사례 분석 문제에서는 성능이 크게 떨어졌다. 이에 대해 알리마르다니 교수는 “이런 복잡한 분석 능력이 실제 법률 현장에서 더 중요하다”면서도 “학생들 역시 이 부분을 어려워하기 때문에, AI와 학생들의 성능 차이가 크지 않았다”고 덧붙였다. 이는 AI와 인간 학습자 모두에게 법적 분석력 향상이 중요한 과제임을 시사한다.

연구에 참여한 조교들의 의견도 흥미롭다. 한 조교는 “AI의 답변은 매우 직접적이고 기계적인 느낌이었다”며 “법률가들은 보통 더 상세하고 풍부한 표현을 사용하는 경향이 있다”고 말했다. 반면 다른 조교는 “AI는 문제의 핵심을 잘 파악하고 관련 없는 내용을 다루지 않았다”며 “오히려 학생들보다 더 문제에 충실했다”고 평가했다. 이는 AI의 장단점을 동시에 보여주는 대목이다.

이번 연구 결과는 AI 시대의 법학 교육에 중요한 시사점을 제공한다. 알리마르다니 교수는 “AI 사용을 금지하는 것보다는, 학생들이 AI와 효과적으로 협업하는 방법을 가르치는 것이 더 중요하다”고 강조했다. 그는 “AI를 활용해 초안을 작성한 뒤 이를 비판적으로 분석하고 개선하는 능력이 미래 법률가에게 필수적일 것”이라며 “법학 교육도 이에 맞춰 변화해야 한다”고 제언했다.

알리마르다니 교수는 구체적인 제안으로 AI 리터러시 교육 강화, 비판적 사고력 강화, 실무 중심 교육, 그리고 AI 사용에 따른 법률 윤리 교육 등을 제시했다. 이는 AI 시대에 맞는 법학 교육의 새로운 방향성을 제시한 것으로 볼 수 있다.

학문적 ‘독창성’ 개념의 재정립 필요

AI의 등장은 학문적 ‘독창성(originality)’의 개념에 대한 재고도 요구하고 있다. 알리마르다니 교수는 “AI가 생성한 내용을 비판적으로 검토하고 개선하는 과정 자체가 학생의 독창적 기여가 될 수 있다”며 “이는 미래 직장에서도 필요한 능력”이라고 설명했다. 다만 그는 “AI에 과도하게 의존하면 기초 지식과 능력 습득이 어려워질 수 있다”고 경고하면서 “특히 학업 초기 단계에서는 AI 사용을 제한적으로 허용하는 등 신중한 접근이 필요하다”고 덧붙였다.

AI 사용에 따른 윤리적 문제도 이번 연구에서 중요하게 다뤄졌다. 연구에 참여한 조교들은 AI를 통한 부정행위 가능성에 대해 우려를 표했다. 한 조교는 “단순히 시험 문제를 AI에 입력하는 것만으로도 통과 수준의 답안을 얻을 수 있다”며 “이는 학업 윤리에 심각한 위협이 될 수 있다”고 말했다. 이에 대해 알리마르다니 교수는 AI 사용 허용 정책 수립, 평가 방식 변경, 실시간 시험 강화, AI 탐지 시스템 도입 등의 대응책을 제시했다.

미래 법률 시장의 변화에 대한 전망도 제시되었다. 알리마르다니 교수는 “AI가 단순 반복적인 법률 업무를 대체할 가능성이 크다”며 “특히 paralegal 등 초급 법률가들의 업무가 크게 변할 것”이라고 전망했다. 그는 “미래 법률가들은 AI와 협업하여 더 복잡한 문제를 해결하는 능력이 필요할 것”이라고 강조했다. 이에 따라 법학 교육도 “단순 암기식 교육에서 벗어나 AI를 활용한 법률 문제 해결 능력을 키우는 데 초점을 맞춰야 한다”며 “AI와 인간의 협업이 만들어낼 시너지 효과를 최대화하는 방향으로 교육 과정을 재설계해야 한다”고 제언했다.

이 연구는 법학, 기술, 혁신 분야의 학술지인 ‘Law, Innovation and Technology’에 게재되었다. 알리마르다니 교수는 “이번 연구 결과를 바탕으로 다양한 법 분야와 국가에서 추가 연구가 이뤄져야 한다”며 “AI 시대에 맞는 법학 교육 방식을 지속적으로 모색해 나가야 할 것”이라고 강조했다.

AI 기술의 급속한 발전으로 법학 교육과 법률 시장은 큰 변화의 기로에 서 있다. 이번 연구는 현재 AI의 한계와 가능성을 실증적으로 보여주며, 앞으로 나아갈 방향에 대한 중요한 시사점을 제공하고 있다. 법학계는 이러한 변화에 적극적으로 대응하여, AI와 인간이 조화롭게 협력할 수 있는 새로운 법률 환경을 만들어가야 할 것이다. AI 시대의 법학 교육은 단순히 지식 전달을 넘어, 비판적 사고력, 창의성, 그리고 AI를 포함한 새로운 기술을 효과적으로 활용할 수 있는 능력을 키우는 방향으로 나아가야 할 것이다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다.