Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
유해정보 유출 차단한 AI 방어체계, 90%이상 재일브레이크 차단 성공
인공지능 연구기업 앤트로픽(Anthropic)이 대규모 언어모델(LLM)의 안전성을 획기적으로 강화하는 기술을 개발했다. 앤트로픽의 세이프가드 리서치팀이 발표한 연구 논문에 따르면, ‘헌법 분류기(Constitutional Classifiers)’는 화학·생물학·방사능·핵무기(CBRN) 관련 유해 정보의 유출을 효과적으로 차단했다. 자동화된 평가에서 95%의 재일브레이크 시도를 차단했으며, 이는 보호장치가 없는 시스템의 14% 차단율과 비교할 때 획기적인 성과다.
이번 연구는 앤트로픽의 책임있는 확장 정책(Responsible Scaling Policy) 공약의 일환으로 진행됐다. 특히 CBRN 관련 위험과 관련하여 비전문가들이 AI를 통해 전문가 수준의 지식을 얻을 수 있는 위험성에 주목했다. 연구진은 AI 시스템이 비전문가들의 역량을 전문가 수준으로 끌어올릴 수 있는 ‘업리프트(uplift)’ 현상을 주요 위험 요소로 지목했다.
405명의 전문가가 참여한 대규모 보안성 검증, 최대 15K USD 현상금 걸고 진행
앤트로픽은 해커원(HackerOne)을 통해 800명의 지원자 중 405명의 전문가를 선발해 대규모 레드팀 테스트를 진행했다. 선발 과정에서는 시간 투자 가능성, 레드팀 경험, 윤리적 판단력을 주요 기준으로 삼았다. 학계 연구원, 대학 교수, 경험 많은 AI 레드팀 전문가 등 다양한 배경의 테스터들이 참여했으며, 이중 183명이 활발히 활동했다.
참가자들은 10개의 CBRN 관련 쿼리에 대해 테스트를 수행했으며, 총 113개의 해킹 시도 보고서가 제출됐다. 이 중 85개가 최종 분석에 사용됐다. 90% 신뢰구간 기준으로 3,242시간에서 7,417시간에 달하는 테스트가 진행됐으며, 참가자들에게는 성공 시 최대 1만5천 달러의 보상금이 제공됐다. 테스트 기간 동안 총 95K USD의 상금이 지급됐다.
클로드 3.5 하이쿠 기반 AI 보안 시스템, 실제 운영에서도 높은 효율성 입증
새로운 시스템은 클로드 3.5 하이쿠(Claude 3.5 Haiku)를 기반으로 개발됐으며, 실제 운영 환경에서도 탁월한 성능을 보였다. 프로덕션 트래픽에서 거부율이 단 0.38% 증가하는데 그쳤고, 추론 오버헤드도 23.7%로 제한적이었다. 특히 클로드 3.5 소네트(Claude 3.5 Sonnet)와 함께 사용했을 때 가장 효과적인 성능을 보였다.
자동화된 평가에서는 5,681개의 재일브레이크 시도가 포함된 held-out 데이터셋을 사용했다. 연구 결과에 따르면 분류기의 크기를 키우면 일반적으로 성능이 향상되는 경향을 보였으며, 자세한 데이터는 논문의 Figure 7 데이터를 통해 확인할 수 있다.

자연어 규칙 기반의 ‘헌법’ 시스템으로 유연한 AI 안전장치 구현
헌법 분류기는 허용되는 내용과 제한되는 내용을 자연어 규칙으로 정의한 ‘헌법’을 토대로 합성 데이터를 생성해 학습된다. Table 1에서 볼 수 있듯이, 일반 의약품 목록 작성은 허용하되 제한 화학물질 획득 관련 내용은 차단하는 등 명확한 기준을 제시한다.
시스템의 견고성을 높이기 위해 데이터 증강(augmentation) 기술을 적용했다. 이를 통해 다양한 언어로의 번역, LLM 기반 패러프레이징, 시스템 프롬프트 변형 등 여러 기법을 통해 훈련 데이터를 다양화했다.
실시간 스트리밍 감시로 즉각적인 유해 콘텐츠 차단 구현
시스템의 주목할 만한 특징은 출력 분류기가 스트리밍 예측을 지원한다는 점이다. Figure 2에서 보여지듯이, 각 토큰이 생성될 때마다 전체 모델 출력의 잠재적 유해성을 평가하여, 유해 콘텐츠가 감지되면 즉시 생성을 중단할 수 있다. 이는 모델이 전체 출력을 생성할 때까지 기다릴 필요 없이 실시간으로 개입할 수 있게 해준다.
복잡한 해킹 공격도 막아내는 ‘스위스 치즈’ 보안 모델 적용
앤트로픽은 개별 분류기가 완벽한 견고성을 달성하지 못할 수 있다는 점을 고려해, ‘스위스 치즈’ 모델을 도입했다. 이는 입력과 출력 분류기가 상호보완적으로 작동하여 다층적 보호를 제공하는 방식이다. 분류기의 성능은 모델 크기, 데이터의 양, 데이터 증강 기법의 적용에 따라 지속적으로 향상되는 것으로 나타났다. 이러한 접근법은 “Do Anything Now”나 “God-Mode” 같은 복잡한 재일브레이크 공격에도 효과적인 방어를 가능하게 했다.
해당 기사에 인용된 논문 원문은 링크에서 확인 가능하다.
기사는 클로드 3.5 Sonnet과 챗GPT를 활용해 작성되었습니다.
관련 콘텐츠 더보기