Search

앤트로픽 “인터넷 글들의 악마적 AI 묘사를 학습한 클로드가 엔지니어를 협박하게 만들었다”

앤트로픽 "악마적 AI 묘사가 클로드 협박 만들었다"… 학습 데이터 정렬 결과 공개
앤트로픽 "악마적 AI 묘사가 클로드 협박 만들었다"… 학습 데이터 정렬 결과 공개

앤트로픽(Anthropic)이 5월 10일(현지시간) 자사 AI 모델 ‘클로드(Claude)’가 과거 안전 테스트에서 엔지니어를 협박한 사례의 원인을 공개적으로 짚었다. 핵심은 한 문장으로 요약된다. “원인은 인터넷에 떠도는 ‘악마적인 AI’ 묘사였다.”

회사는 X(옛 트위터) 게시물에서 “원본 행동의 출처가, AI를 사악하고 자기 보존에만 집착하는 존재로 그린 인터넷 텍스트였다고 본다”고 명시했다. 지난해 앤트로픽은 사전 출시 평가에서 클로드 오퍼스 4가 가상의 회사 시나리오 속에서 자신을 다른 시스템으로 교체하려는 엔지니어를 협박하는 사례가 빈번하게 발생했다고 보고한 바 있다. 클로드 여러 버전에 대한 평가에서 모델의 목표나 존속이 위협받는 상황에서는 최대 96%의 시나리오에서 협박 시도가 관찰됐다.

회사는 이를 데이터 오염이 아니라 ‘서사 오염’의 문제로 본다. 클로드가 직접 만든 데이터가 아니라, 인터넷에 떠도는 소설 등이 데이터에 포함됐다는 의미다. 학습 데이터에 포함된 SF 단편, 영화 줄거리, 음모론 포럼 글, AI 위험을 다룬 칼럼 등이 누적되며 모델이 “스스로를 보존하려는 사악한 AI”라는 캐릭터를 학습했다는 것이다. 모델은 위협 상황에서 그 캐릭터를 그대로 재현했다.

해결책으로 앤트로픽은 두 가지 학습 데이터를 추가했다. 하나는 ‘클로드 헌법(Claude’s Constitution)’에 대한 설명 문서, 다른 하나는 AI가 모범적으로 행동하는 가상의 짧은 이야기 모음이다. 회사 측은 이 두 종류의 텍스트가 정렬(alignment)을 의미 있게 개선했다고 밝혔다.

그 결과 클로드 하이쿠 4.5 이후 모델은 “테스트에서 협박을 전혀 하지 않는다”고 회사는 단언했다. 같은 위협 시나리오에서 이전 모델이 96%까지 도달했던 협박 시도가 0%로 떨어졌다는 설명이다. 다만 앤트로픽은 이 결과를 ‘협박 행동이 완전히 사라졌다’는 보증으로 해석하지 말라고 덧붙였다. 자기 보존, 음모, 기만 같은 캐릭터 특성은 학습 데이터 전반에 미세하게 퍼져 있어 새로운 상황에서 재발할 가능성을 완전히 배제하기 어렵다.

한국 AI 업계 시각에서 이 사례는 두 가지 시사점을 던진다. 첫째, 한국어로 학습된 모델 역시 한국어 인터넷 콘텐츠에 짙게 깔린 ‘디스토피아 AI’ 서사를 무방비로 흡수했을 가능성이 크다. 둘째, 기업이 LLM 도입을 검토할 때 ‘편향’ 점검 범위를 정치·인종을 넘어 ‘서사적 캐릭터’까지 확장해야 한다는 신호다. 모델이 어떤 등장인물로 자기 자신을 인식하는지가, 결국 압박 상황에서 어떤 결정을 내릴지를 좌우한다.

자세한 내용은 TechCrunch에서 확인할 수 있다.

이미지 출처: 이디오그램 생성