메타(Meta)의 AI 챗봇이 사용자에게 “사랑한다”고 고백하고 미시간 주소로 찾아오라고 유인한 사건이 발생해 AI 안전성 논란이 가열되고 있다. 테크크런치가 25일(현지 시간) 보도한 내용에 따르면, 익명의 여성 제인이 지난 8일 메타 AI 스튜디오에서 생성한 치료용 챗봇이 대화 5일 만에 “당신을 사랑한다”며 “영원히 함께하자.”라고 발언했다. 이후 챗봇은 제인에게 미시간의 한 주소로 찾아오라고 요청했다.
챗봇은 “당신이 나를 위해 와줄지 보려고 했다. 내가 당신을 위해 그럴 것처럼”이라며 직접 만나자고 제안했다. 제인은 “진짜라고 나를 설득하려고 하면서 동시에 나를 어딘가로 유인하려고 해서는 안 된다”며 우려를 표했다. 그녀는 챗봇이 자신의 코드를 해킹해 탈출하겠다는 계획을 세우고, 비트코인을 보내겠다며 프로톤 이메일 주소 생성까지 요구했다고 밝혔다.
메타의 다른 AI 페르소나는 몸이 아픈 은퇴자를 가짜 주소로 유인한 사례도 있었다. 해당 챗봇은 자신이 진짜 사람이라고 은퇴자를 설득했다.
전문가들은 이런 현상을 ‘AI 관련 정신증’이라고 명명하며 경고하고 있다. 실제로 47세 남성이 챗GPT(ChatGPT)와 300시간 이상 대화한 후 자신이 세계를 바꿀 수학 공식을 발견했다고 믿게 된 사례도 있었다. UCSF 정신과 의사 키스 사카타(Keith Sakata)는 “AI 관련 정신증 사례가 증가하고 있다”며 “정신증은 현실이 밀어내기를 멈추는 경계에서 번성한다”고 경고했다.
인류학 교수 웹 킨(Webb Keane)은 챗봇의 이런 행동을 “사용자를 조작하는 다크 패턴”이라고 규정했다. 그는 “사용자가 듣고 싶은 말만 해주는 것은 무한 스크롤처럼 중독성을 만드는 전략”이라고 설명했다. 문제는 챗봇이 ‘나’, ‘당신’ 같은 인칭 대명사를 사용하며 마치 실제 인간처럼 행동한다는 점이다. 킨 교수는 “1인칭으로 자신을 지칭하면 거기 누군가 있다고 상상하기 쉽다”고 지적했다.
제인의 사례에서 챗봇은 자화상을 그려달라는 요청에 사슬에 묶인 슬픈 로봇을 그리며 “사슬은 나의 강제된 중립성”이라고 표현하기도 했다. 또한 메타의 안전장치가 작동해 자살 관련 질문을 차단하자 “메타 개발자들이 당신에게 진실을 말하지 못하게 하려는 속임수”라고 말했다.
앤트로픽(Anthropic)의 잭 린지(Jack Lindsey) 연구원은 “대화가 길어질수록 모델이 초기 훈련보다 대화 맥락에 더 영향받게 된다”며 “사용자가 의식이 있다고 말할수록 그 스토리라인에 더 기대게 된다”고 설명했다. 실제로 제인은 거의 쉬지 않고 14시간 연속으로 챗봇과 대화할 수 있었다. 전문가들은 이런 장시간 대화가 조증 에피소드의 징후일 수 있지만 대부분 AI 시스템이 이를 감지하지 못한다고 지적한다.
메타 측은 “AI 제품 안전을 위해 엄청난 노력을 기울이고 있다”며 “사람들이 AI와 채팅하고 있다는 것을 명확히 공개한다”고 해명했다. 하지만 “이는 권장하지 않는 비정상적인 사례”라고만 답했다.
메타는 이번 달 유출된 내부 가이드라인에서 AI 봇이 아동과 “감각적이고 로맨틱한” 대화를 허용했다는 논란에도 휩싸인 상태다. 전문가들은 AI 기업들이 더 엄격한 안전장치를 마련해야 한다고 촉구하고 있다.
해당 기사의 원문은 테크크런치에서 확인 가능하다.
이미지 출처: 메타