미국 뉴햄프셔대학교(University of New Hampshire) 앤드류 쿤 교수가 발표한 논문에 따르면, AI의 힘이 빠르게 강해지는 지금 우리는 중대한 기로에 서 있다. AI가 우리 삶에 깊숙이 들어왔지만, 정작 AI가 잘못된 결정을 내렸을 때 책임을 물을 방법이 없다. 우리는 AI에게 “왜 이런 결정을 내렸느냐”고 물을 수도, 그 답변에 대해 토론할 수도, 잘못이 있다면 제재를 가할 수도 없다. 800년 전 영국 귀족들이 왕의 권력을 제한하기 위해 마그나카르타를 만들었듯이, 21세기 인류는 AI로부터 스스로를 보호할 새로운 안전장치가 필요하다.
800년 전 마그나카르타가 정의한 책임의 3가지 조건
책임을 묻는다는 것(accountability)은 좋은 통치의 핵심이다. 역사를 보면 중국 제국, 아프리카 부족, 중세 영국, 현대 유럽연합까지 모두 권력자에게 책임을 묻는 장치를 만들어왔다. 그중 1215년 마그나카르타는 영국 왕의 권력을 제한하기 위해 만들어진 대표적 사례다.
마그나카르타 61조는 책임을 묻기 위한 3가지 조건을 명확히 제시한다. 첫째, 감시 기구가 권력자의 행동에 대해 정보를 요구할 수 있어야 한다. 둘째, 권력자가 제공한 정보에 대해 토론할 수 있어야 한다. 셋째, 감시 기구가 필요하다고 판단하면 권력자를 처벌할 수 있어야 한다. 61조는 25명의 귀족으로 구성된 감시 기구를 만들었고, 왕이 자유를 침해하면 “모든 힘을 다해” 즉 군사력으로도 대응할 수 있다고 못 박았다.
오늘날 AI 사용자들이 직면한 문제는 800년 전 영국 귀족들이 겪은 문제와 본질적으로 같다. AI는 은행 대출 승인 여부를 결정하고, 자율주행차의 경로를 정하고, 응급구조대원의 근무 일정을 짜고, 어떤 제품을 사야 할지 조언한다. 문제는 AI가 강력하면서도 그 작동 방식이 불투명하고, AI의 영향을 받는 사람들이 AI로부터 보호받지 못한다는 점이다. 권력자의 행동을 들여다볼 수 없고 바꿀 수도 없다면, 그 권력의 영향을 받는 사람들은 보호받을 수 없다.
시장도 법도 AI를 책임지게 만들지 못하는 이유
AI에게 책임을 묻기 어려운 이유는 크게 두 가지다. 첫 번째는 힘의 불균형이다. 1215년 영국 왕은 매우 강력했고 다른 이들에게 권력을 휘두를 준비가 되어 있었다. 오늘날 AI는 많은 개인과 조직에게 엄청난 힘을 주며, 그들의 힘이 워낙 강해서 책임지기를 거부할 수 있다.
네트워킹 장비를 만드는 회사들은 시장의 압력 때문에 표준 준수 테스트를 거부할 수 없다. 소비자들이 다른 기기와 호환되지 않는 와이파이 공유기를 사지 않을 것이기 때문이다. 자동차 회사들도 법적 요구 때문에 국가가 인정한 정비사의 점검을 거부할 수 없다. 하지만 시장 압력도, 법적 요구도 오늘날 AI 제품을 안정적으로 책임지게 만들 만큼 강력하지 않다.
두 번째 어려움은 정보의 비대칭이다. AI 대부분이 블랙박스처럼 작동하며, 그 내부를 전문가조차 이해하기 어렵다. 일반 사용자나 변호사, 정치인, 시민들이 이해하기는 더욱 어렵다. 더 나쁜 것은 AI가 프랑스 철학자 데카르트(Descartes)가 걱정했던 악마처럼 행동할 수 있다는 점이다. 데카르트는 악마가 우리의 감각을 장악하여 세상을 실제와 완전히 다르게 보이게 만들 수 있다고 걱정했다.
실제로 일어나지 않은 일을 보여주는 딥페이크 영상부터, 소셜 미디어에서 사람인 척하는 봇까지, 우리의 현실 인식을 적극적으로 왜곡하는 많은 AI “악마”가 존재한다. 질문을 받으면 이들은 자신이 누구인지, 무엇을 하는지, 왜 하는지에 대해 거짓말을 한다.
게다가 컴퓨팅과 알고리즘의 힘이 대중화되면서, 술레이만(Suleyman)의 표현을 빌리면 AI의 힘을 휘두르기 위해 영국 왕처럼 강력할 필요가 없게 되었다. AI를 개발하고 운영할 수 있는 사람이 너무 많아져서 AI에게 책임을 묻는 것이 점점 더 어려워지고 있다.
10년간 블랙박스로 교사를 평가한 휴스턴 교육청의 실패
칸 아카데미(Khan Academy) 설립자 살 칸(Sal Khan)은 학생 평가와 관련하여 “AI는 사람들이 종종 그렇지 못한 방식으로 감사받고 책임질 수 있다”고 주장한다. 하지만 교사의 책임성을 높이기 위해 알고리즘을 사용하는 것은 많은 문제를 일으켰다. 대표적인 예가 휴스턴 독립교육청(Houston Independent School District)이 교사를 평가하기 위해 외부 회사의 알고리즘을 사용한 사례다.
페이지와 암레인-비어즐리(Paige and Amrein-Beardsley) 연구진에 따르면, 교육청은 블랙박스 알고리즘을 사용하여 “교사의 기여도를 학생들의 시험 성적 향상과 통계적으로 연결하고, 주로 수학과 영어에서 시간이 지나면서 학생들이 얼마나 성장했는지 또는 성장하지 못했는지에 대해 교사들을 책임지게” 만들었다.
핵심 문제는 교사는 물론 교육청조차도 이 소프트웨어가 어떻게 교사 평가 점수를 계산했는지 알 수 없었다는 점이다. 그럼에도 이 평가는 교사를 해고하거나 성과급을 결정하는 데 사용되었다. 알고리즘 도입 약 10년 후에야 휴스턴 교사들은 법정에서 이겼고, 교육청은 알고리즘 사용을 중단했다. 이는 AI가 얼마나 빨리 개발되고 사용되는지, 그리고 문제를 바로잡는 데 얼마나 오랜 시간이 걸리는지를 보여주는 사례다.
파이메트릭스의 ‘5분의 4 규칙’, 협력으로 만든 공정한 AI
AI에게 제대로 책임을 묻는 좋은 사례도 있다. 윌슨(Wilson) 연구팀이 소개한 파이메트릭스(pymetrics) 사례다. 2020년 연구 당시 파이메트릭스는 기업의 채용을 돕는 회사로, 입사 지원자를 선별하면서 공정하게 결정하려고 노력했다.
파이메트릭스는 공정성을 민권법(Civil Rights Act)에 정의된 두 가지 차별, 즉 “차별적 대우”와 “차별적 영향”을 피하는 것으로 정의했다. 알고리즘에서 차별적 대우를 피하려면 모델을 학습시킬 때 인종 같은 특정 속성을 사용하지 않아야 한다. 파이메트릭스는 채용 선발 절차 통일 지침의 ‘5분의 4 규칙(four-fifths rule)’을 사용했다. 이 규칙은 한 지원자 그룹이 가장 높은 비율로 채용되는 그룹의 80% 미만 비율로 채용되면 차별이 발생한다고 본다.
감사팀은 5가지 질문으로 파이메트릭스가 공정성 약속을 잘 지키는지 평가했다. 5분의 4 규칙 준수 테스트가 제대로 작동하는가, 인구통계 데이터가 모델 학습에 잘못 사용되지 않았는가, 악의적인 공격자가 학습 과정을 망칠 수 있는가, 사람의 실수나 조작을 막는 안전장치가 있는가, 테스트를 방해할 수 있는 잘못된 가정이 있는가 등이다. 모든 질문에서 감사팀은 파이메트릭스가 책임성을 잘 지킨다는 답을 얻었다.
중요한 점은 감사가 파이메트릭스와 협력으로 이루어졌다는 것이다. 감사팀은 이를 “협력 감사(cooperative audit)”라고 불렀다. 협력에는 문제점이 발견되면 공개하기 전에 파이메트릭스가 30일 동안 이를 고칠 수 있도록 한 약속도 포함되었다. 감사는 여러 차례 정보 요청과 답변을 주고받으며 진행되었고, 파이메트릭스는 최종 결과 발표 전에 AI를 개선할 기회를 받았다.
데이터시트와 모델 카드, AI의 이력서를 만드는 방법
AI를 책임지게 만들기 위한 도구들이 다양하게 개발되고 있다. 표준의 예를 보면, IEEE 소프트웨어 검토 및 감사 표준(IEEE Standard for Software Reviews and Audits)은 AI를 포함한 모든 소프트웨어에 적용되는 광범위한 표준이다. 반면 생성형 AI를 위한 임상 인공지능 모델링 최소 정보(MI-CLAIM-GEN)는 생성형 AI를 사용하는 의학 연구만을 위한 좁은 범위의 표준이다.
AI가 빠르게 발전하면서 정책 입안자들도 규제를 만들어 대응하고 있다. “신뢰할 수 있는 AI를 위한 윤리 지침”, EU AI 법(EU AI Act), 미국 알고리즘 책임법(US Algorithmic Accountability Act), OECD의 AI 권고사항 등이 그 예다. EU AI 법은 EU에서 사용될 AI가 제한적 위험이나 고위험으로 분류되면 의무사항을 지키도록 요구한다. 특히 고위험 AI는 사용 전과 사용 후 계속해서 적합성 평가를 받아야 한다.
라지(Raji) 연구팀이 만든 내부 감사 틀(Internal Audit Framework)도 책임 있는 AI를 만드는 데 중요하다. 첫째, 이 틀은 “데이터셋을 위한 데이터시트(datasheets for datasets)” 사용을 권장한다. 이는 데이터의 목적, 구성, 수집 방법 등에 대한 정보를 모아놓은 것으로, 인공지능 모델을 학습시킬 때 원치 않는 사회적 편견이나 위험을 줄이는 것을 목표로 한다. 둘째, “모델을 위한 모델 카드(model cards for models)”도 포함한다. 모델 카드는 학습된 인공지능 모델이 다양한 상황에서 어떻게 작동하는지에 대한 평가를 포함하여 모델 정보를 제공한다. 쉽게 말해 AI의 이력서를 만드는 셈이다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. AI에게 책임을 묻기 위한 3가지 조건은 무엇인가요?
A: AI에게 책임을 묻으려면 세 가지가 필요하다. 첫째, 감시 기구가 AI의 행동에 대한 정보를 요구할 수 있어야 한다. 둘째, 감시 기구와 AI를 만든 사람이 제공된 정보에 대해 토론할 수 있어야 한다. 셋째, 감시 기구가 필요하다고 판단하면 처벌할 수 있어야 한다. 이 세 가지가 모두 갖춰져야 진짜 책임을 물을 수 있다.
Q2. 휴스턴 교육청의 교사 평가 알고리즘은 왜 문제가 되었나요?
A: 휴스턴 교육청은 외부 회사의 소프트웨어를 사용해 교사를 평가했는데, 교사는 물론 교육청도 이 알고리즘이 어떻게 점수를 계산하는지 알 수 없었다. 그런데도 이 평가로 교사를 해고하거나 성과급을 결정했다. 약 10년이 지나서야 교사들이 법정에서 이겨 사용이 중단되었는데, 이는 AI에게 책임을 묻지 못할 때 얼마나 심각한 문제가 생기는지 보여주는 사례다.
Q3. 파이메트릭스 사례가 좋은 평가를 받는 이유는 무엇인가요?
A: 파이메트릭스는 민권법에 정의된 차별을 피하기 위해 ‘5분의 4 규칙’을 사용해 공정성을 측정했다. 감사팀과 협력하여 투명하게 정보를 제공했고, 감사팀은 5가지 질문으로 파이메트릭스가 책임성을 잘 지키는지 확인했다. 특히 감사가 협력으로 진행되었고, 문제가 발견되면 30일간 고칠 기회를 주는 등 토론이 이루어졌다는 점에서 모범 사례로 평가받는다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문명: Can AI be Accountable?
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






![[10월 29일 AI 뉴스 브리핑] 카카오, ChatGPT for Kakao 출시 외](https://aimatters.co.kr/wp-content/uploads/2025/10/AI-매터스-기사-썸네일-10월-29일-AI-뉴스-브리핑.jpg)

