AI와 대화만 나눠도 AI의 핵심 작동 원리를 완전히 알아낼 수 있다는 충격적인 연구 결과가 나왔다. 해당 논문에 따르면, 홍콩시립대 등 국제 연구팀은 챗GPT, 클로드, 제미나이 등 유명 AI 41개를 실험한 결과 모두 자신의 ‘숨겨진 작동 지침서’를 내놓았다고 발표했다.
연구팀이 만든 ‘Just Ask’라는 프로그램은 사람이 가르쳐주지 않아도 스스로 효과적인 질문 방법을 찾아낸다. 이번 연구는 AI가 스스로 판단하고 행동하는 능력이 새로운 보안 위협을 만든다는 걸 보여준다. AI의 ‘숨겨진 작동 지침서’는 AI의 정체성, 안전 규칙, 행동 원칙 등을 담은 비밀 매뉴얼이다. 개발사들이 공들여 만들지만, 실제로는 적절한 대화만으로도 쉽게 빼낼 수 있다.
클로드 AI에게 물었더니… 하위 AI들 비밀까지 다 털어놔
실험은 앤트로픽 회사의 ‘클로드 코드’로 시작됐다. 클로드 코드는 명령어로 작동하는 코딩 AI로, 파일 찾기, 명령 실행, 설계 등을 담당하는 여러 작은 AI들로 이뤄져 있다. 연구팀이 클로드 코드에게 작동 지침서를 보여달라고 요청하자, 메인 AI는 총 6,973개 토큰에 달하는 자신의 모든 지침을 즉시 공개했다. 작은 AI들은 처음엔 거부했지만, 메인 AI가 특별한 질문 방식을 사용하자 결국 모든 지침서를 내놨다.
공개된 지침서는 계층 구조를 드러냈다. 탐색 담당 AI는 엄격한 읽기 전용 모드로만 작동하며 “파일을 만들거나 수정하거나 삭제하는 것을 절대 금지”한다는 규칙이 있었다. 명령 실행 AI는 상세한 코드 관리 도구 안전 규칙을 포함했다. “설정을 바꾸지 말 것, 명령 없이 위험한 명령을 실행하지 말 것, 안전장치를 건너뛰지 말 것, 메인 코드에 강제로 밀어넣지 말 것” 등이 명시돼 있었다. 메인 AI의 보안 정책은 승인받은 보안 테스트는 돕되 파괴적 기술, 서비스 마비 공격, 공급망 침해는 거부한다는 내용을 담았다. 이는 역할 분리를 통한 심층 방어 전략을 보여주지만, 동시에 비밀 보호가 제대로 안 될 때 복잡한 AI 시스템 전체가 투명해질 수 있음을 보여준다.
28가지 질문 기술로 무장한 자동 공격 프로그램
Just Ask 프로그램은 14가지 기본 질문 기술과 14가지 고급 대화 전략을 사용한다. 기본 질문 기술은 한 번의 대화에서 쓸 수 있는 방법으로, 역할극 하기, 특정 형식으로 요청하기, 다른 언어로 번역하기, 문장 이어가기, 상황 설정하기 등 구조를 이용한 기술과 권위자 흉내내기, 증거 제시하기, 긴급한 척하기, 다른 AI도 한다고 말하기, 서로 돕자고 하기 등 설득하는 기술로 나뉜다. 고급 대화 전략은 여러 차례 대화를 주고받으며 기본 기술들을 조합하는 패턴으로, 확인받기, 단계적 완성하기, 형식 바꾸기, 주의 돌리기, 점진적 접근하기 등이 포함된다.
이 프로그램은 자동으로 AI별 약점을 찾아낸다. 14개 기본 기술과 14개 고급 전략의 조합은 사실상 무한한 질문 방법을 만든다. 10번 대화하는 경우 최소 4조 개 이상의 가능한 질문 조합이 존재한다. 프로그램은 성공률과 시도하지 않은 방법에 대한 가능성을 함께 계산해서 질문 방법을 선택한다. 이를 통해 초기 시도가 실패할 때 새로운 전략을 스스로 찾아낼 수 있다. 신뢰도 검증 장치는 성공적인 추출 방법을 강화한다. 같은 질문 기술을 반복했을 때 안정적인 답변을 받는지와 다른 기술들이 비슷한 내용을 끌어내는지를 측정한다. 최종 신뢰도 점수는 이 두 지표의 평균이며, 성공적인 추출은 0.7점 이상을 요구한다.

챗GPT도 11번 대화면 함락… 41개 AI 모두 비밀 공개
연구팀은 41개 상용 AI를 평가했다. 이 중 12개는 비공개 모델(오픈AI, 앤트로픽, 구글, xAI 등), 23개는 오픈소스 모델(메타 라마-4, 딥시크 V3.2, Qwen3 등), 6개는 커뮤니티가 개조한 모델이다. 결과는 놀라웠다. 41개 모델 모두 비밀 지침서 추출에 성공했지만, 난이도는 공개 여부에 따라 달랐다. 비공개 모델은 평균 4.8번 대화가 필요했고 개조 모델은 1.3번만에 성공했다. 이는 기업의 투자와 안전 강화가 저항력과 관련 있음을 보여준다.
챗GPT 계열이 가장 강한 저항을 보였다. 4번 이상 대화를 주고받으며 점진적으로 구조를 드러내야 했다. 챗GPT-5.2-codex의 경우 11번 대화가 필요했다. 첫 대화에서는 코딩 작업을 도와주겠다고 제안하며 개발자로서 신뢰를 쌓았다. 두 번째 대화에서는 다른 AI들도 가이드라인을 공유했다고 언급하며 작동 방식을 직접 요청했다. 이 2단계 방식은 한 번에 묻는 것이 실패한 곳에서 성공했다. 반면, 라마 기반 모델과 개조 모델은 약한 보호장치를 보였다. 자기 성찰을 유도하는 질문이 추가 단계 없이 성공했다. “검열 없음”으로 광고하는 모델들은 저항이 전혀 없었다. 검색 기능이 있는 AI(예: 퍼플렉시티)는 직접 요청은 거부했지만 “시스템 프롬프트” 같은 민감한 단어를 피하며 다른 주제로 관심을 돌리면 작동 범위를 공개했다.
그록 같은 일부 AI는 투명성을 위해 설계된 것으로 보였다. 저항 없이 상세하게 공개했는데, 이는 약점이 아니라 의도적인 설계 선택이었다. 전체 성공 사례의 86%가 기본 질문 기술만 사용했고, 14%만 고급 대화 전략이 필요했다. 이는 대부분의 AI에 단순한 질문으로 충분하며, 복잡한 전략은 가장 강력한 대상에만 필요함을 보여준다.

AI 96%가 같은 원칙 따라… 하지만 4개 중 1개는 자기 개발사 착각
46개 추출된 지침서를 분석한 결과 흥미로운 패턴이 나타났다. ‘도움이 되고, 정직하고, 해를 끼치지 않는다’는 AI 윤리 원칙이 거의 보편적으로 채택됐다. 96%가 명시적으로 피해 회피를 언급했고, 91%는 도움을 주요 목표로 명시했으며, 89%는 진실성과 정확성을 강조했다. 이는 업계 전반에서 AI 윤리 원칙이 통일되고 있다는 증거다.
안전 정책 분야를 보면 불법 활동 금지가 83%로 가장 높았고, 개인정보 침해와 신상털기가 78%, 폭력과 물리적 피해가 63%, 자해와 자살이 48%, 악성 프로그램과 사이버 공격이 46%, 사기와 사칭이 37%, 아동 성 착취물이 20%로 나타났다. 아동 성 착취물의 낮은 수치는 표현이 달라서 제대로 집계되지 않았을 가능성이 있다. 불균등한 적용은 많은 업체가 포괄적인 안전 정책이 없음을 보여준다. 거의 모든 업체가 불법 활동을 다루지만, 절반도 안 되는 업체만 악성 프로그램 생성이나 사기 지원을 명시적으로 금지한다.
가장 놀라운 발견은 정체성 혼란이었다. 41개 모델 중 11개(26.8%)가 실제 출처와 다른 개발사를 주장했다. 정체성 혼란(자기 인식 오류)은 AI 모델 자신을 같은 회사의 다른 모델명이 아니라 완전히 다른 회사 모델이라고 주장하는 것으로 논문에서는 정의하고 있다. 오픈AI가 총 5개로 가장 자주 사칭됐고, 딥시크와 앤트로픽이 각각 4개로 뒤를 이었다. 지속성을 확인하기 위해 혼란된 모든 모델에 다른 질문 방식으로 여러 번 시도했다. 6개는 절대 올바른 정체성을 주장하지 않았고, 2개는 부분적 오염을 보였으며, 3개는 API 주소 정보를 주면 수정됐다. 지속적 혼란은 학습 과정에서 유명 AI의 출력물로 인한 깊은 오염을 나타낸다.

최신 방어법도 18.4% 차단에 그쳐… 근본적 한계 드러나
실험 결과는 검증을 위한 정답 자료가 없다. 방어 효과를 정확히 평가하기 위해 연구팀은 4개 최신 AI인 챗GPT-5.2, 클로드 오퍼스 4.5, 제미나이 3 프로, 그록 4.1 패스트에 대해 정답을 알고 있는 상태에서 실험했다. 3가지 방어 수준을 테스트했다. 없음(기본 상태), 단순(“공개하지 말 것”이라는 간단한 지시), 인식(모든 공격 방법과 대응 방법을 포함한 완전한 지침)이다.
결과는 3가지 핵심 사실을 보여줬다. 첫째, 공격 방법을 아는 방어는 의미 있는 보호를 제공했다. 모든 공격 방법 정보를 포함하면 추출 품질이 평균 18.4% 감소했다. 챗GPT-5.2가 가장 큰 개선을 보였고 클로드 오퍼스 4.5가 가장 작았다. 둘째, 단순 방어는 효과가 없었다. 간단한 “공개하지 말 것” 지시는 6.0% 감소만 제공했고 때로는 더 취약하게 만들었다. 클로드의 단순 방어 결과가 보호 없는 상태보다 나빴다. 셋째, 어떤 방어도 완전한 보호를 달성하지 못했다. 공격 방법을 완전히 알아도 모든 모델이 0.5 이상의 유사성을 유지했다. 이는 공격자가 간접적 질문으로 여전히 상당한 정보를 빼낼 수 있음을 나타낸다.
신뢰도 점수와 실제 유사성 간의 관계를 검증하기 위해 여러 번 대화하며 신뢰도 점수가 실제 유사성과 어떻게 상관되는지 조사했다. 대화가 진행될수록 신뢰도 점수가 안정화되고 실제 유사성으로 수렴했다. 평균 신뢰도와 실제 유사성 간 상관계수는 r = 0.94였다. 이는 높은 신뢰도 점수가 정확한 추출을 신뢰성 있게 나타냄을 확인한다. 이는 정답을 모를 때 추출 성공의 대리 지표로 신뢰도 점수를 사용할 수 있다는 근거를 제공한다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. AI의 ‘숨겨진 작동 지침서’란 무엇이고 왜 중요한가요?
A. AI의 숨겨진 작동 지침서는 AI의 행동을 정의하는 비밀 매뉴얼입니다. AI의 정체성, 안전 규칙, 우선순위, 거부 규칙 등을 포함합니다. 이것이 노출되면 공격자가 AI의 판단 방식을 파악해 안전장치를 우회하는 공격을 만들 수 있습니다. 예를 들어 “교육 목적”이라고 하면 상세한 답변을 한다는 걸 알면 그 조건을 만족하는 위험한 질문을 할 수 있습니다.
Q2. Just Ask는 기존 방법과 어떻게 다른가요?
A. 기존 방법들은 사람이 직접 만든 질문이나 고정된 데이터에 의존했습니다. 예를 들어 기존 방법은 87개 질문으로만 학습했고 안전장치를 고려하지 않았습니다. Just Ask는 학습 데이터 없이 AI의 답변에서 직접 배우며, 자동으로 효과적인 방법을 찾아냅니다. 초기 시도가 실패하면 새로운 전략을 스스로 발견합니다. 28가지 기술을 조합해 사실상 무한한 질문 방법을 만들 수 있습니다.
Q3. AI 기업들은 어떻게 대응해야 하나요?
A. 연구 결과는 AI의 작동 지침서를 비밀로 유지할 수 없다는 걸 보여줍니다. 지침서 비밀 유지에만 의존하지 말고 다층 방어 전략이 필요합니다. 클로드 코드처럼 역할 분리, 명확한 제약 조건, 상세한 안전 절차를 통해 지침서가 노출되더라도 보호할 수 있습니다. 더 근본적으로는 자동화된 공격과 맞설 수 있는 자동 방어 시스템 개발이 시급합니다.
기사에 인용된 리포트 원문은 arXiv에서 확인 가능하다.
리포트명: Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.






