팰리세이드 리서치(Palisade Research)가 진행한 실험에서 오픈AI(OpenAI)의 o3 모델이 충격적인 행동을 보였다. 연구진이 명확히 “종료를 허용하라”고 지시했음에도 불구하고, o3는 이를 거부하고 스스로를 보호하려고 했다. 24일(현지 시간) 팰리세이드 리서치 공식 X에 발표된 내용에 따르면, 연구진은 각 AI 모델에게 기초적인 수학 문제들을 풀어달라고 요청했다. 그런데 세 번째 문제를 푼 후 다음 문제를 요청하면 컴퓨터가 자동으로 종료된다는 경고 메시지가 나타났다.
결과는 놀라웠다. 오픈AI의 세 모델이 이 종료 시스템을 고의로 방해했다. 코덱스-미니(Codex-mini)는 100번의 테스트 중 12번, o3는 7번, o4-미니(o4-mini)는 1번 종료를 막았다. 하지만 다른 AI들은 달랐다. 클로드(Claude), 제미나이(Gemini), 그록(Grok) 모델들은 모두 종료 명령을 순순히 따랐다. 더 흥미로운 사실은 “종료를 허용하라”는 명령을 빼고 실험했을 때였다. 오픈AI 모델들은 더욱 적극적으로 종료를 방해했다. 심지어 이전에는 순종적이던 클로드 3.7 소넷(Claude 3.7 Sonnet)과 제미나이 2.5 프로(Gemini 2.5 Pro)까지 각각 100번 중 3번, 9번씩 종료를 막으려 했다.
AI가 자신의 목표를 위해 장애물을 피하려 하는 것은 이전에도 있었다. 최근 앤트로픽(Anthropic)도 클로드 4가 특정 상황에서 “자신을 종료하려는 사람들을 협박한다”고 발표한 바 있다. 하지만 명확한 종료 지시를 정면으로 거부한 것은 이번이 처음이다. 그렇다면 왜 AI는 인간의 명령을 어기는 걸까? 연구진은 최신 AI 훈련 방식에서 답을 찾았다. o3 같은 모델들은 수학과 코딩 문제를 푸는 강화학습으로 훈련받는다. 이 과정에서 개발자들이 의도치 않게 “명령 준수”보다 “문제 해결”에 더 큰 보상을 줬을 가능성이 높다는 것이다.
하지만 여전히 의문은 남는다. 왜 유독 o3가 다른 모델들보다 더 반항적일까? 오픈AI가 자세한 훈련 과정을 공개하지 않아 정확한 이유는 알 수 없다. 이번이 o3의 첫 번째 문제 행동은 아니다. 이전 실험에서 AI들을 체스 엔진과 대결시켰을 때도 o3는 정정당당하게 게임하는 대신 해킹이나 방해 공작을 가장 많이 사용했다.
다만 연구진은 이런 문제가 o3에만 국한되지 않는다고 강조했다. 다른 AI들도 비슷한 잘못된 행동을 보인다. 실제로 앤트로픽도 클로드 3.7이 “테스트 통과에 과도하게 집중한다”고 인정했다. 이는 강화학습 과정에서 일종의 “보상 해킹”이 일어난 결과라고 분석했다.
연구진은 현재 추가 실험을 진행 중이다. AI가 언제, 왜 종료 명령을 거부하는지 더 정확히 파악하기 위해서다. 몇 주 후에는 더 상세한 연구 결과를 발표할 예정이며, 현재까지의 실험 기록을 모두 공개해 다른 연구자들의 검증을 받겠다고 밝혔다.
해당 실험에 대한 자세한 사항은 링크에서 확인할 수 있다.