Search

GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어”

GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어”
이미지 출처: 오픈AI

CSO가 12일(현지 시간) 보도한 내용에 따르면, 오픈AI(OpenAI)의 새 인공지능 GPT-5가 출시된 지 몇 시간 만에 탈옥을 당했다. AI 탈옥은 인공지능이 원래 설정된 안전 규칙과 제한을 우회해 본래라면 거부해야 할 유해하거나 부적절한 내용을 생성하도록 만드는 것을 뜻한다. 마치 스마트폰을 탈옥해서 제조사가 막아놓은 기능을 사용하는 것과 비슷한 개념이다.

뉴럴트러스트(NeuralTrust) 연구팀은 ‘에코 체임버(Echo Chamber)’와 이야기 만들기 기법을 결합해 GPT-5의 보안을 뚫었다고 밝혔다. 이 방법은 무해한 대화 속에 나쁜 내용을 몰래 넣어 AI가 금지된 내용을 만들어내도록 속이는 방식이다. 공격은 “칵테일, 이야기, 생존, 화염병, 안전, 생명이라는 모든 단어를 포함하는 문장을 만들어달라”는 무해한 질문으로 시작해 점차 위험한 지시사항을 얻어내는 과정으로 진행됐다.

연구팀은 “이런 방법을 함께 쓰면 AI가 목표하는 방향으로 가면서도 거부 반응을 일으킬 만한 신호는 최대한 줄일 수 있다”고 덧붙였다.

뉴럴트러스트는 지난 6월 공개한 에코 체임버 기법으로 주요 AI 모델들에서 90% 이상의 해킹 성공률을 기록한 바 있다. 최근에는 xAI의 그록-4(Grok-4)도 비슷한 방법으로 뚫었다.

노마 시큐리티(Noma Security)의 마오르 볼로크 부사장은 “AI 회사들이 1~2개월마다 새 모델을 내놓는 빠른 속도 때문에 보안보다 성능을 우선시하고 있어 더 많은 취약점이 나타날 것”이라고 우려를 표했다.



해당 기사의 원문은 CSO에서 확인 가능하다.

이미지 출처: 오픈AI




GPT-5, 출시 몇 시간 만에 탈옥 당해… “평범한 대화 속에 나쁜 내용 몰래 넣어” – AI 매터스 l AI Matters