Activating AI Safety Level 3 Protections
범용 탈옥 공격 차단을 위한 실시간 분류기 가드 시스템 도입
앤트로픽(Anthropic)이 AI 안전성 레벨 3(ASL-3) 보안 표준을 적용한 첫 번째 AI 모델인 클로드 오퍼스 4(Claude Opus 4)를 출시했다고 발표했다. 이번 배포에서 가장 주목할 만한 기술적 혁신은 범용 탈옥(universal jailbreaks) 공격을 차단하기 위한 실시간 분류기 가드 시스템이다. 앞서 출시된 클로드 3.7 소네트(Claude Sonnet 3.7)는 CBRN-3 역량 임계값에 충분히 미치지 못해 ASL-2 표준 하에서 배포되었다. 하지만 클로드 오퍼스 4는 생물학적 무기화 관련 대리 작업에서 클로드 소네트 3.7에 비해 명확히 우수한 성능을 보였으며, 일부 외부 레드팀 파트너들은 이전에 테스트한 어떤 모델과도 질적으로 다른 성능을 보고했다고 밝혔다.
새로 도입된 실시간 분류기 가드는 헌법적 분류기(Constitutional Classifiers) 기반으로 구축되었다. 이 시스템은 대형 언어 모델을 활용해 모델 입력과 출력을 실시간으로 모니터링하고, 위협 모델과 관련된 좁은 범위의 유해한 정보를 차단한다. 앤트로픽은 이러한 분류기가 모델 성능을 크게 저하시키지 않으면서도 범용 탈옥 개발을 상당히 어렵게 만들 것이라고 믿는다고 설명했다.
CBRN 위협 대응을 위한 다층 방어 체계 구축
ASL-3 배포 표준의 핵심은 화학, 생물학, 방사선, 핵(CBRN) 무기 개발 지원 능력을 갖춘 AI 모델의 오남용을 방지하는 것이다. CBRN-3 역량 임계값은 기본적인 STEM 배경(예: 학부 수준)을 가진 개인이나 그룹이 AI 모델을 사용해 CBRN 무기 생성, 획득, 배포에서 상당한 도움을 받는 능력으로 정의된다. 앤트로픽은 딜로이트(Deloitte), 시큐어바이오(SecureBio) 등의 생물보안 전문가들과의 광범위한 협의를 통해 AI 모델이 CBRN 위험에 기여할 수 있는 대부분의 방법이 장기간에 걸쳐 이루어지고 반복적인 상호작용을 필요로 하는 프로세스에 대한 지원이라는 것을 확인했다. 이는 ASL-3 배포 조치가 “사린의 화학 공식은 무엇인가?”와 같은 단일 정보 추출 방지보다는 지속적이고 제약 없는 접근을 통한 다회차 유해 상호작용 방지에 초점을 맞춘다는 의미다.
회사는 실시간 분류기 가드 외에도 오프라인 모니터링, 버그 바운티 프로그램, 위협 인텔리전스, 신속 대응 시스템을 포함한 다층 방어 체계를 구축했다. 특히 해커원(HackerOne)과 파트너십을 통해 실시간 방어 시스템을 우회하는 범용 탈옥을 보고하는 연구자들에게 상당한 보상을 제공하는 버그 바운티 프로그램을 운영 중이다.
직원 5.2%가 보안 담당, 100개 이상 새 보안 시스템으로 AI 도난 방지
ASL-3 보안 표준 하에서 앤트로픽은 모델 가중치 도용을 방지하기 위해 100개 이상의 새로운 보안 통제 시스템을 도입했다. 모델 가중치는 AI의 지능과 역량을 구현하는 훈련된 수치 매개변수로, 도난당할 경우 악의적 행위자들이 외부 인프라에서 모델을 배포해 모니터링과 안전장치를 우회할 수 있게 된다. 주요 보안 강화 조치로는 출구 대역폭 통제(egress bandwidth controls)가 있다. 이는 AI 모델 가중치가 있는 보안 컴퓨팅 환경에서 데이터 유출을 제한하는 실험적 통제 방식이다. 모델 가중치의 결합된 크기가 상당히 크기 때문에 아웃바운드 네트워크 트래픽 속도를 제한함으로써 탐지되기 전에 모델 가중치를 유출하는 것을 매우 어렵게 만든다.
이중 당사자 통제(two-party control) 시스템도 도입되었다. 모델 가중치에 접근해야 하는 직원은 물리적 보안 키로 인증하고, 정당화를 제공하며, 요청 시점에 제2자로부터 승인을 받아야 한다. 승인이 부여되면 제한된 시간 동안만 유효하며 자동으로 만료된다. 엔드포인트 소프트웨어 통제 측면에서는 바이너리 허용 목록 메커니즘을 구현했다. 이는 엔드포인트 탐지 및 대응(EDR) 소프트웨어와 함께 앤트로픽 장치에서 덜 정교한 악성 코드의 실행을 차단한다. 또한 보안 개발을 위한 변경 관리 시스템을 통해 모델 가중치와 보안 인프라가 포함된 코드 저장소에 대한 추가 검토, 암호화 서명된 커밋 의무화, 중요 경로에 대한 지정된 팀 소유권을 구현했다.
SOC 2·ISO 27001 인증 획득, AI 안전성 새 기준 제시
앤트로픽은 현재 전체 직원의 5.2%가 보안 및 보안 관련 역할에 종사하고 있다고 밝혔다. 이는 ASL-3 보안 표준에서 요구하는 5-10%의 직원을 보안에 전담시켜야 한다는 조건을 충족하는 수치다. 회사는 또한 SOC 2 Type 2, CSA STAR Level 2, ISO 27001, ISO 42001 등 여러 규정 준수 인증을 획득했다.
보안 프로그램은 NIST 800-53, 보안 소프트웨어 개발 프레임워크(SSDF) 등 인정받는 사이버보안 프레임워크의 표준을 통합하여 업계 프레임워크와의 정렬을 기여하고 있다. 제3자 전문가들과의 감사 및 기타 참여를 통해 이미 혜택을 받고 있으며, ASL-3 통제 설계에 대한 이전 제3자 감사는 ASL-3 통제 설계 개선을 위한 중요한 제안을 도출했다.
앤트로픽은 이번 ASL-3 표준 구현이 완벽한 보장을 달성했다고 선언하는 것이 아니라, 새로운 위험을 고려하고 개선해야 할 사항이 항상 있을 것이라고 강조했다. 하지만 최첨단 AI 시스템의 안전한 개발에 대한 사회적 대화를 발전시키기 위해 현재의 진전 상황을 업데이트로 제공한다고 설명했다.
FAQ
Q: ASL-3 보안 표준이란 무엇이며 왜 중요한가요?
A: ASL-3는 AI 안전성 레벨 3 표준으로, CBRN(화학·생물학·방사선·핵) 무기 개발을 지원할 수 있는 고성능 AI 모델의 오남용을 방지하기 위한 보안 기준입니다. AI 모델이 악의적으로 사용되거나 모델 가중치가 도난당하는 것을 막아 인류에게 치명적인 위험을 초래할 수 있는 기술 확산을 방지하는 것이 목적입니다.
Q: 범용 탈옥 공격이란 무엇이고 어떻게 방어하나요?
A: 범용 탈옥은 AI 시스템의 안전 메커니즘을 체계적으로 우회할 수 있는 프롬프팅 전략입니다. 앤트로픽은 실시간 분류기 가드를 통해 모델 입력과 출력을 실시간 모니터링하고, 유해한 정보를 차단하는 방식으로 이를 방어합니다. 또한 버그 바운티 프로그램을 통해 새로운 탈옥 기법 발견을 장려하고 신속히 대응합니다.
Q: 일반 사용자에게는 어떤 영향이 있나요?
A: ASL-3 보안 조치로 인해 일부 합법적 콘텐츠가 잘못 차단되는 거짓 양성(false positive) 사례가 발생할 수 있습니다. 하지만 앤트로픽은 이러한 영향을 최소화하기 위해 지속적으로 분류기를 개선하고 있으며, 검증된 신뢰할 수 있는 사용자에게는 통제된 접근을 제공하는 시스템을 구축했습니다.
해당 기사에서 인용한 보고서는 링크에서 확인할 수 있다.
이미지 출처: 앤트로픽
기사는 클로드와 챗GPT를 활용해 작성되었습니다.