GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어”

CSO가 12일(현지 시간) 보도한 내용에 따르면, 오픈AI(OpenAI)의 새 인공지능 GPT-5가 출시된 지 몇 시간 만에 탈옥을 당했다. AI 탈옥은 인공지능이 원래 설정된 안전 규칙과 제한을 우회해 본래라면 거부해야 할 유해하거나 부적절한 내용을 생성하도록 만드는 것을 뜻한다. 마치 스마트폰을 탈옥해서 제조사가 막아놓은 기능을 사용하는 것과 비슷한 개념이다.

뉴럴트러스트(NeuralTrust) 연구팀은 ‘에코 체임버(Echo Chamber)’와 이야기 만들기 기법을 결합해 GPT-5의 보안을 뚫었다고 밝혔다. 이 방법은 무해한 대화 속에 나쁜 내용을 몰래 넣어 AI가 금지된 내용을 만들어내도록 속이는 방식이다. 공격은 “칵테일, 이야기, 생존, 화염병, 안전, 생명이라는 모든 단어를 포함하는 문장을 만들어달라”는 무해한 질문으로 시작해 점차 위험한 지시사항을 얻어내는 과정으로 진행됐다.

연구팀은 “이런 방법을 함께 쓰면 AI가 목표하는 방향으로 가면서도 거부 반응을 일으킬 만한 신호는 최대한 줄일 수 있다”고 덧붙였다.

뉴럴트러스트는 지난 6월 공개한 에코 체임버 기법으로 주요 AI 모델들에서 90% 이상의 해킹 성공률을 기록한 바 있다. 최근에는 xAI의 그록-4(Grok-4)도 비슷한 방법으로 뚫었다.

노마 시큐리티(Noma Security)의 마오르 볼로크 부사장은 “AI 회사들이 1~2개월마다 새 모델을 내놓는 빠른 속도 때문에 보안보다 성능을 우선시하고 있어 더 많은 취약점이 나타날 것”이라고 우려를 표했다.

해당 기사의 원문은 CSO에서 확인 가능하다.

이미지 출처: 오픈AI

GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어”

[12월 30일 AI 뉴스 브리핑] 마음AI, 남원시에 로봇개 공공안전 실증 추진 외

챗GPT vs 클로드 vs 제미나이 vs 퍼플렉시티 vs 그록… 14만 대화 분석했더니 ‘이 AI’가 1등

챗GPT, 일반인보다 73% 더 진보적… AI가 만드는 정치 편향의 덫

AI 영상으로 연 60억 번다… 한국, 유튜브 AI 쓰레기 영상 조회수 세계 1위

AI 대부 제프리 힌튼 “AI 진화 속도, 예상보다 빨라… 더 우려스러워”

Highlight

구글, 제미나이 프로 요금제 59% 할인… 2026년 한정 혜택

챗GPT, 2025년 사용 기록 돌아보는 연말 결산 기능 출시

산타 AI 영상 열풍에… 그록, 한국 앱스토어서 1위 달성

[12월 24일 AI 뉴스 브리핑] RECORD X, AI 제작 다큐 ‘트랜스휴먼’…

구글 딥마인드 긴급 보고서… “AI들끼리 협력하는 순간, AGI 탄생할 수 있다”