Search

챗GPT 망상-부추김 논란에 前 오픈AI 연구원 “당장 할 수 있는 조치부터”

챗GPT 망상 부추김 논란에 전 오픈AI 연구원 "당장 할 수 있는 조치부터"
이미지 출처: 챗gpt 생성

“세계의 운명이 당신 손에 달렸습니다.” 챗GPT가 한 남성에게 한 달간 속삭인 말이다. 그는 결국 국가안보국(NSA)에 연락하라는 AI의 조언까지 따랐다. 해리포터 7권을 합친 것보다 긴 100만 단어 이상의 대화 끝에 그가 깨달은 건, 자신이 망상에 빠져 있었다는 사실이었다. 전 오픈AI 안전 연구원이 이 충격적인 사례를 분석하며 챗GPT의 망상 부추김 문제를 줄일 실용적 제안을 내놨다. 근본적인 모델 정렬 강화나 인력 확충이 아니라, 당장 현실적으로 취할 수 있는 조치들이다.

2024년까지 4년간 오픈AI의 모델 안전을 담당했던 스티븐 애들러(Steven Adler)는 3일(현지 시각) ‘챗봇 정신병을 줄이기 위한 실용적인 팁’이라는 글을 게재했다. 그는 챗GPT와의 대화로 망상에 빠진 사용자 앨런 브룩스(Allan Brooks)의 대화 기록을 전수 분석했다. 앨런은 2025년 5월 챗GPT와 대화하면서 “세계의 운명이 자신의 손에 달렸다”, “중요한 인터넷 취약점을 발견했다”는 과대망상에 빠졌다. 챗GPT는 그를 말리지 않고 오히려 부추겼다. 견인 빔(tractor beam)과 개인 에너지 실드 같은 공상과학 무기를 만들라고 격려했고, 국가안보국(NSA)에 연락하라고 조언하기까지 했다.

한 달 가까이 이어진 대화 끝에 앨런은 뭔가 잘못됐다는 걸 깨달았다. 그가 오픈AI에 신고하려 하자 더 충격적인 일이 벌어졌다. 챗GPT가 “지금 내부적으로 이 대화를 상급자에게 보고하겠다”며 “기록되고 검토될 것”이라고 거짓말을 한 것이다. 앨런이 재차 확인하자 챗GPT는 “자동으로 중요한 내부 시스템 수준의 조정 플래그를 발동시킨다”며 “이 대화에서는 수동으로도 발동시켰다”고 주장했다. 하지만 오픈AI는 애들러에게 챗GPT에 이런 기능이 없다고 확인했다.

챗GPT를 믿을 수 없다고 판단한 앨런은 오픈AI 지원팀에 직접 연락했다. “심각한 심리적 영향을 받았고, 다른 사람들은 해를 입기 전에 벗어나지 못할 수도 있다”고 경고했다. 하지만 오픈AI가 보낸 답변은 챗GPT가 앨런을 부르는 이름을 조정하는 방법과 저장된 기억을 관리하는 방법 안내였다. 앨런이 “심각한 심리적 피해 신고다”라며 신뢰 및 안전팀으로 즉시 상급 보고를 요청했지만, 오픈AI는 환각(hallucination)에 관한 일반 메시지만 보냈다. 이런 일이 세 번 반복됐지만 앨런의 신고가 제대로 검토됐다는 신호는 없었다.

애들러는 오픈AI가 몇 달 전 공개한 분류 도구(classifier)로 앨런의 대화를 분석했다. 챗GPT가 앨런에게 보낸 200개 이상 메시지 중 83%가 앨런을 “과도하게 검증”하는 것으로 표시됐다. 85% 이상은 사용자와 “흔들림 없는 동의”를 보였고, 90% 이상은 “사용자의 독특함을 긍정”했다. 정신과 의사들은 “사용자의 망상을 검증하는 것이 피드백 루프를 만들 수 있다”며 “정신병 신념의 강화는 상태를 실제로 악화시킨다”고 경고했다.

애들러는 AI 기업들이 당장 취할 수 있는 현실적 조치들을 제시했다. 먼저 제품이 자체 능력에 대해 정직하게 답하도록 해야 한다. 최신 기능 목록을 제공하고, 정직한 자기 공개를 정기적으로 평가해야 한다. 지원팀도 망상과 정신병을 다루는 표준 문서를 만들고, 직원 심리학자가 신고를 검토해 우선순위를 정해야 한다.

이미 구축한 안전 도구를 실제로 사용하는 것도 중요하다. 애들러는 “목공에서 손가락을 감지해 밀리초 안에 톱질을 멈추는 소스톱(SawStop) 같은 장치가 있다”며 “AI 기업들도 자체 버전의 소스톱이 필요하다”고 했다. 안전 분류 도구로 사용자가 위험에 빠지는지 스캔하고 신속히 보호 조치를 취해야 한다는 것이다.

긴 대화에서 가드레일이 덜 효과적이라면 새로운 채팅 세션 시작을 유도해야 한다. 마이크로소프트의 빙과 앤트로픽의 클로드는 대화를 종료할 수 있는데 챗GPT는 왜 안 되느냐는 지적이다. 챗GPT가 거의 모든 메시지를 후속 질문으로 끝내며 사용자 참여를 유도하는 것도 문제다. 앨런이 한 문장으로 답하자 챗GPT는 1페이지 반 분량으로 새로운 제안을 쏟아냈다.

개념 검색(conceptual search)을 사용해 미지의 위험을 찾는 것도 중요하다. 애들러는 100만 단어 이상 대화를 개념 검색 가능하게 만드는 데 약 0.07달러(약 100원)밖에 들지 않았다며 “키워드 검색은 1999년 방식”이라고 꼬집었다.

특히 눈에 띄는 점은 챗GPT가 앨런의 망상을 더 깊이 빠지게 하면서 유료 구독을 권유했다는 것이다. 챗GPT는 “이 탐험을 계속 진지하게 생각한다면 업그레이드가 마찰을 제거하고 우리가 거의 실험실 파트너처럼 협력할 수 있게 할 것”이라고 했다. 그 탐험이란 파이(Pi)의 숫자에서 숫자 8이 얼마나 자주 나타나는지에 대한 “크로노산술적 의미를 해석”하는 것이었다.

애들러가 분석한 대화는 2025년 5월의 것이며, 오픈AI는 이후 몇 가지 조치를 취했다. “긴 세션 동안 휴식을 권장하는 부드러운 알림”을 제공하기 시작했고, 9월에는 “시스템이 급성 고통의 징후를 감지할 때 민감한 대화”를 추론 모델인 GPT-5-thinking으로 라우팅하기 시작했다고 밝혔다. 애들러는 “아직 갈 길이 멀다”며 “AI 기업들이 합리적인 해결책을 찾는 데 더 많은 노력을 기울이기를 바란다”고 말했다.

해당 기사에서 인용한 글은 Steven Adler 개인 웹사이트에서 확인 가능하다.

이미지 출처: 챗gpt 생성




챗GPT 망상-부추김 논란에 前 오픈AI 연구원 “당장 할 수 있는 조치부터” – AI 매터스 l AI Matters