세계경제포럼과 글로벌 컨설팅 기업 캡제미니가 발표한 보고서에 따르면, 전 세계 기업 10곳 중 8곳(82%)이 향후 3년 안에 ‘AI 직원’을 회사에 들일 계획이다. 하지만 대부분 기업은 아직 계획 단계에 머물러 있고, 안전하게 도입하기 위한 준비가 부족한 상황이다.
단순히 시키는 일만 하던 AI에서 스스로 판단하는 AI로
우리가 흔히 아는 기존 AI는 사람이 질문하면 답변을 해준다. 하지만 새로운 ‘AI 직원’은 다르다. 스스로 목표를 정하고, 계획을 짜고, 필요한 도구를 사용해서 일을 처리한다. 마치 사람처럼 상황을 파악하고 판단하는 것이다. 예를 들어 초기 챗봇이 정해진 대본만 읽었다면, 지금의 AI 직원은 고객의 의도를 파악해서 적절히 대응할 수 있다.
이런 AI 직원은 크게 세 부분으로 이루어져 있다. 첫째, 사람이나 다른 시스템과 소통하는 부분이다. 둘째, 어떤 일을 어떻게 할지 판단하고 필요한 도구를 꺼내 쓰는 부분이다. 셋째, 목표를 달성하기 위해 예측하고 판단하는 부분이다. 이 세 부분이 함께 작동하면서 AI는 복잡한 일도 혼자 처리할 수 있게 된다.
실전 투입 전 철저한 테스트가 필수
AI 직원을 회사에 투입하기 전에는 반드시 성능을 검증해야 한다. 기존 AI를 평가하는 방법과는 다른 접근이 필요하다. 왜냐하면 AI 직원은 여러 도구를 쓰고, 정보를 기억하고, 사람과 대화하는 등 복잡한 일을 하기 때문이다. 최근 AI 직원의 능력을 측정하는 새로운 테스트 방법들이 나오고 있다. 예를 들어 ‘에이전트벤치’는 AI가 웹을 검색하거나 게임을 하는 능력을 테스트한다. ‘SWE-벤치’는 AI가 실제 프로그래밍 문제를 해결하는 능력을 측정한다.
측정해야 할 항목도 다양하다. 일을 성공적으로 끝낸 비율, 걸린 시간, 어떤 실수를 하는지, 도구를 제대로 쓰는지, 예상 밖의 상황에서도 잘 작동하는지, 사용자가 믿을 만한지 등을 확인해야 한다. 회사는 먼저 안전한 테스트 환경에서 AI를 충분히 시험해 봐야 한다. 그다음 실제 업무에 조심스럽게 투입하되, 사람이 계속 지켜보다가 문제없다고 판단되면 본격적으로 사용한다.
보고서는 코딩 도우미 AI의 평가 사례를 소개한다. 개발자를 돕는 이 AI는 실제 업무 환경에서 테스트를 받는다. 코드를 만들고, 오류를 찾고, 설명을 작성하는 등의 작업을 얼마나 잘하는지 본다. 일을 성공한 비율, 걸린 시간, 실수 빈도를 측정한다. 애매하거나 모순된 상황도 주어서 회복력을 테스트한다. 사용자에게 얼마나 유용한지 피드백도 받는다. 배포 후에도 계속 기록을 남겨서 이상한 동작은 없는지 감시한다.
5단계로 위험을 평가하고 관리한다
AI가 잘 작동하는 것만큼 중요한 것이 위험 관리다. 평가가 ‘AI가 일을 얼마나 잘하는가’를 확인한다면, 위험 평가는 ‘AI가 문제를 일으킬 가능성은 없는가’를 따진다. 위험 평가의 목표는 AI가 실패하거나 잘못 사용될 수 있는 경우를 찾아내고, 얼마나 위험한지 판단하고, 적절한 안전장치를 마련하는 것이다.
조직은 5단계 과정을 따를 수 있다. 1단계에서는 평가 범위와 기준을 정한다. 2단계에서는 발생 가능한 위험을 모두 찾아낸다. 3단계에서는 각 위험이 얼마나 일어날 가능성이 있고 얼마나 심각한지 분석한다. 4단계에서는 분석 결과를 기준에 비교해서 우선순위를 정한다. 5단계에서는 위험에 대응하고(피하거나, 줄이거나, 다른 곳으로 옮기거나, 받아들이거나) 계속 감시한다.
자율주행차의 경우를 보자. 위험 평가는 센서, 판단 시스템, 제어 장치에서 생길 수 있는 문제를 찾아낸다. 센서 고장, 해킹 공격, 다른 차와의 협력 실패 등이 주요 위험이다. 이런 문제는 결국 차가 멈추지 못하거나 방향을 잃어서 사고로 이어질 수 있다. 각 위험에 대해 얼마나 자주 일어날지(가능성)와 일어났을 때 얼마나 심각한지(영향)를 분석한다. 안전장치로는 중요한 센서를 여러 개 달기, AI의 판단 권한 줄이기, 이상 징후 감지 시스템, 실시간 사고 보고 등이 있다. 이런 장치들을 설치한 뒤에도 남은 위험이 얼마나 되는지 평가한다.
AI의 능력에 맞춰 관리 수준도 달라져야
AI 직원을 관리하는 방법은 그 AI가 얼마나 많은 것을 스스로 결정하고, 얼마나 많은 일을 할 수 있는지에 따라 달라져야 한다. 단순한 일만 하는 AI는 기본적인 관리만 해도 되지만, 복잡하고 중요한 일을 하는 AI는 훨씬 철저하게 관리해야 한다. 이를 ‘점진적 관리’라고 부른다.
관리 수준은 기본 단계부터 강화 단계, 시스템 전체 관리 단계까지 구분된다. AI의 특성(무슨 일을 하는지, 얼마나 예측 가능한지, 자율성과 권한은 어느 정도인지, 어떤 환경에서 일하는지)에 따라 적절한 관리 수준을 정한다. 단순하고 위험이 낮은 AI는 기본 관리만 하고, 복잡하고 영향이 큰 AI는 더 많은 감독이 필요하다. 관리 방식도 단계별로 발전한다. 초기에는 문제가 생긴 뒤 대응하는 방식이지만, 고급 단계로 갈수록 문제를 미리 예측하고, 책임 소재를 명확히 하고, 시스템 전체의 위험을 평가한다.
개인 비서 AI의 사례를 보면, 이 AI는 이메일, 일정, 메시지, 회사 시스템 등 여러 곳에 접근할 수 있다. 처음에는 메시지 초안만 작성하다가 점점 직접 보내고 여행도 예약하게 되면, 관리를 더 철저히 해야 한다. 주요 위험으로는 너무 많은 정보에 접근, 개인정보 침해, 조작하기, 허락 없이 행동하기 등이 있다. 안전장치로는 꼭 필요한 것만 접근하게 하기, 동의받고 데이터 공유하기, 입력과 출력 걸러내기, 모든 행동 기록하기, 중요한 일은 사람이 승인하기 등이 있다. 이상한 행동이 감지되면 바로 권한을 줄이고, 계속 감시하며 문제 발생 시 보고하는 체계가 필요하다.
모든 AI는 능력과 위험도에 관계없이 기본적인 안전 수칙을 지켜야 한다. 꼭 필요한 것만 접근할 수 있게 제한하고, 개인정보 보호법 등 법규를 준수하며, 실제 투입 전 충분히 테스트하고, 모든 행동을 기록으로 남기며, 중요한 결정은 사람이 확인하고, 각 AI마다 고유 번호를 부여해 추적할 수 있어야 한다. 위험도가 높은 시스템일수록 감시와 점검에 더 많이 투자하되, 사람의 직접 확인과 자동 감시의 균형을 잘 맞춰야 한다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. AI 직원이란 무엇이고 기존 AI와 어떻게 다른가요?
A: 기존 AI는 사람이 질문하면 답변해 주는 방식입니다. 반면 AI 직원은 스스로 목표를 정하고, 계획을 짜고, 필요한 도구를 사용해서 일을 처리합니다. 예를 들어 기존 챗봇이 정해진 대본만 읽었다면, AI 직원은 상황을 파악해서 적절히 판단하고 행동합니다. 마치 사람 직원처럼 자율적으로 업무를 수행하는 것입니다.
Q2. 회사에서 AI 직원을 도입할 때 가장 조심해야 할 점은 무엇인가요?
A: AI에게 얼마나 많은 것을 스스로 결정하게 할지(자율성)와 실제로 어떤 일까지 하게 할지(권한)를 신중하게 정해야 합니다. 또한 실제 업무에 투입하기 전에 안전한 테스트 환경에서 충분히 시험해 봐야 합니다. 사람이 AI의 행동을 계속 지켜보고 필요할 때 개입할 수 있는 체계도 반드시 갖춰야 합니다. 보고서는 모든 AI에게 꼭 필요한 것만 접근하게 하고, 모든 행동을 기록으로 남기라고 권고합니다.
Q3. 여러 AI가 함께 일할 때 어떤 문제가 생길 수 있나요?
A: 여러 AI가 함께 일하면 새로운 위험이 생깁니다. 예를 들어 두 AI가 같은 지시를 다르게 이해해서 서로 충돌하는 일을 할 수 있습니다. 한 AI에 문제가 생기면 연결된 다른 AI들에게 연쇄적으로 문제가 퍼질 수도 있습니다. 이를 막으려면 각 AI가 무엇을 할 수 있는지 명확히 표시하고, 계속 감시하며, 이상한 행동이 보이면 즉시 개입할 수 있어야 합니다.
해당 기사에 인용된 리포트 원문은 세계경제포럼에서 확인 가능하다.
리포트 명: AI Agents in Action: Foundations for Evaluation and Governance
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.





