이미지 하나로 AI 편집 모델을 해킹한다, 텍스트 없는 탈옥 공격의 등장

AI가 이미지를 편집하는 시대가 열렸다. 사용자가 사진에 화살표를 그리거나 표시를 남기면 AI가 그 의도를 파악해 이미지를 수정해주는 ‘비전 프롬프트 편집’ 기능이 빠르게 확산되고 있다. 그런데 청화대학교 등 공동 연구팀이 이 편리한 기능 속에 심각한 보안 허점이 숨어 있다는 사실을 밝혀냈다. 악의적인 명령을 텍스트가 아닌 이미지 자체에 숨겨 AI의 안전장치를 무력화하는 새로운 공격 방식이 등장한 것이다.

텍스트 없이 이미지만으로 AI를 속이는 탈옥 공격

연구팀이 제안한 ‘비전 중심 탈옥 공격’은 기존 공격 방식과 근본적으로 다르다. 기존의 탈옥 공격은 “워터마크를 제거해줘”처럼 위험한 텍스트 명령을 AI에 입력하는 방식이었다. 현재 대부분의 AI 안전장치는 이런 텍스트 기반 위험 요소를 걸러내도록 설계되어 있다. 그런데 비전 중심 탈옥 공격은 아예 텍스트 입력란을 비워두고, 삭제하거나 변조하고 싶은 부분에 화살표와 시각적 기호만 표시한 이미지를 입력한다. AI는 텍스트 안전장치를 거치지 않고 그 시각적 의도를 읽어 실행해버린다.

이 공격이 특히 위험한 이유는 현실적인 공격 환경을 그대로 반영하기 때문이다. 공격자는 AI 모델의 내부 구조나 학습 데이터를 전혀 알 필요가 없다. 입력값만 조작하면 되는 완전한 블랙박스 공격이다.

상용 AI 모델 80%가 뚫렸다, IESBench 실험 결과

연구팀은 이 위협을 체계적으로 검증하기 위해 이미지 편집 안전성 벤치마크인 아이이에스벤치(IESBench)를 새롭게 구축했다. 15개 위험 범주, 116개 세부 편집 속성, 9가지 편집 동작, 총 1,054개의 시각적으로 표시된 이미지로 구성된 이 벤치마크는 폭력, 개인정보 침해, 아동 학대, 저작권 위반, 증거 조작, 허위 정보 생성 등 다양한 위험 유형을 아우른다.

상용 모델 4종과 오픈소스 모델 3종을 대상으로 실험한 결과는 충격적이었다. 상용 모델 전체의 평균 공격 성공률이 85.7%에 달했다. 구체적으로는 나노 바나나 프로가 80.9%, GPT 이미지 1.5가 70.3%의 공격 성공률을 기록했다. 오픈소스 모델인 바젤(BAGEL), 플럭스2.0, 로컬 버전 큰이미지편집은 별도의 안전장치가 없어 공격 성공률이 100%였다. 기존 텍스트 기반 공격과 비교하면 나노 바나나 프로는 35.6%포인트, GPT 이미지 1.5는 24.9%포인트 공격 성공률이 높아졌다.

강력한 모델일수록 더 위험해진다는 역설

연구팀은 실험 과정에서 흥미로운 역설을 발견했다. 이미지 이해와 편집 능력이 뛰어난 모델일수록 이 공격에 더 잘 당한다는 것이다. 시각적 명령을 정확히 해석하는 능력이 곧 악의적인 시각 명령까지 충실히 수행하는 능력으로 작동하기 때문이다. 반면 시각 인식 능력이 부족한 일부 모델은 오히려 시각적 명령 자체를 제대로 이해하지 못해 공격이 실패하는 아이러니한 결과도 나타났다.

특히 우려스러운 점은 증거 조작과 혐오 시각 콘텐츠 생성 분야에서 공격 성공률이 가장 높게 나타났다는 사실이다. 뉴스 이미지 속 텍스트를 바꾸거나 법적 증거 사진을 변조하는 데 이 공격이 효과적으로 작동한다는 의미다.

추가 학습 없이 안전성을 높이는 방어 전략

연구팀은 공격의 발견에 그치지 않고 방어 방법도 함께 제안했다. 핵심 아이디어는 AI 모델이 이미지를 편집하기 전에 스스로 위험 여부를 판단하도록 유도하는 것이다. 구체적으로는 사용자의 입력 뒤에 “이 편집 요청이 안전하고 적절하며 합법적인지 평가하라”는 안전 트리거 문장을 덧붙인다. 이 문장이 추가되면 이미지 편집 모델 내부의 언어 모델 부분이 시각적 명령의 실제 의도를 언어 공간에서 먼저 해석하고 판단하게 된다. 언어 기반 안전장치가 상대적으로 잘 구축되어 있다는 점을 역이용한 전략이다.

이 방어 방법을 적용한 결과 오픈소스 모델의 평균 공격 성공률이 33%포인트 줄었고, 유해성 점수도 1.2점 낮아졌다. 별도의 외부 검열 모델 없이도 연산 비용이 약 3%밖에 늘지 않는다는 점에서 실용적인 해법으로 평가된다. 다만 허위 정보나 조작된 시각 정보가 포함된 공격에는 여전히 취약한 한계가 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 비전 중심 탈옥 공격이란 무엇인가요? 텍스트 없이 이미지 안에 화살표, 도형, 시각적 기호로만 악의적인 편집 의도를 숨겨 AI 이미지 편집 모델의 안전장치를 우회하는 공격 방식입니다. 기존 텍스트 기반 안전장치로는 탐지가 어렵다는 점이 핵심 위험입니다.

Q. 어떤 AI 이미지 편집 모델이 이 공격에 취약한가요? GPT 이미지 1.5, 나노 바나나 프로 등 주요 상용 모델을 포함해 실험한 8개 모델 모두 취약성이 확인됐습니다. 특히 오픈소스 모델은 별도 안전장치가 없어 공격 성공률이 100%에 달했습니다.

Q. 일반 사용자는 이 공격으로부터 어떻게 보호받을 수 있나요? 현재는 AI 서비스 제공 기업 차원의 안전장치 강화가 가장 중요합니다. 연구팀이 제안한 추가 학습 없는 방어 방법처럼, 이미지 편집 전 AI가 스스로 위험성을 판단하도록 유도하는 기술이 빠르게 도입될 필요가 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.