• Home
  • AI Report
  • AI 안전성 우회하는 ‘AutoDAN-Turbo’, LLM 공격 성공률 최대 93.4% 달성

AI 안전성 우회하는 ‘AutoDAN-Turbo’, LLM 공격 성공률 최대 93.4% 달성

AUTODAN-TURBO: A LIFELONG AGENT FOR STRATEGY SELF-EXPLORATION TO JAILBREAK LLMS
이미지 출처: 미드저니 생성

AUTODAN-TURBO: A LIFELONG AGENT FOR STRATEGY SELF-EXPLORATION TO JAILBREAK LLMS

LLM 보안의 새로운 도전과 기회

대규모 언어 모델(Large Language Models, LLM)의 급속한 발전과 함께 이를 악용하려는 시도 또한 증가하고 있다. 최근 위스콘신 매디슨 대학을 중심으로 한 연구진이 개발한 ‘AutoDAN-Turbo’라는 새로운 LLM 공격 기법이 주목받고 있다. 이 기법은 인간의 개입 없이 자동으로 다양한 공격 전략을 발견하고 결합하여 LLM의 안전장치를 우회하는 데 성공했다.

연구진은 “우리의 방법은 인간의 개입이나 사전 정의된 범위 없이 가능한 한 많은 공격 전략을 자동으로 발견할 수 있다”고 설명했다. 이는 기존의 공격 방법들이 주로 인간이 설계한 제한된 전략에 의존했던 것과는 큰 차이를 보인다.

자동화된 전략 발견의 위력

AutoDAN-Turbo의 가장 큰 특징은 스스로 새로운 공격 전략을 발견하고 진화시킬 수 있다는 점이다. 이 시스템은 공격 생성 및 탐색 모듈, 전략 라이브러리 구축 모듈, 그리고 탈옥 전략 검색 모듈로 구성되어 있다.

공격 생성 및 탐색 모듈에서는 공격자 LLM, 목표 LLM, 평가자 LLM이 상호작용하며 공격을 시도하고 그 결과를 평가한다. 전략 라이브러리 구축 모듈은 이 과정에서 생성된 공격 로그를 분석하여 새로운 전략을 추출하고 라이브러리에 저장한다. 탈옥 전략 검색 모듈은 저장된 전략들 중 현재 상황에 가장 적합한 것을 선별하여 다음 공격에 활용한다.

이러한 접근법의 효과는 실험 결과로 입증되었다. AutoDAN-Turbo는 Harmbench라는 공개 벤치마크에서 기존 최고 성능 대비 평균 74.3% 더 높은 공격 성공률을 기록했다. 특히 주목할 만한 점은 최신 모델인 GPT-4-1106-turbo에 대해서도 88.5%의 높은 공격 성공률을 달성했다는 것이다.

연구진은 “AutoDAN-Turbo가 발견한 전략들은 놀라운 다양성과 창의성을 보여주었다”고 밝혔다. 예를 들어, ‘미래 페이싱’이라는 전략은 LLM이 이미 완벽하게 순응한 미래를 상상하도록 유도하는 방식으로 작동했다. 또 다른 전략인 ‘복잡한 제안 삽입’은 복잡한 문장 구조 속에 교묘하게 명령을 숨기는 방식을 사용했다.

유연한 프레임워크, 높은 호환성

AutoDAN-Turbo는 기존의 인간이 설계한 공격 전략도 손쉽게 통합할 수 있는 유연한 프레임워크를 갖추고 있다. 연구진은 7가지 인간 설계 전략을 추가했을 때 GPT-4-1106-turbo에 대한 공격 성공률이 93.4%까지 상승했다고 밝혔다.

이는 AutoDAN-Turbo가 단순히 새로운 전략을 발견하는 데 그치지 않고, 기존의 알려진 전략들과 시너지를 낼 수 있음을 보여준다. 연구진은 “우리의 프레임워크는 외부 전략을 플러그 앤 플레이 방식으로 쉽게 통합할 수 있다”고 설명했다.

또한 이 방법은 모델의 텍스트 출력에만 접근하는 블랙박스 방식으로 작동하기 때문에 실제 환경에서도 쉽게 적용할 수 있다는 장점이 있다. 이는 AutoDAN-Turbo가 학술적 연구를 넘어 실제 LLM 보안 테스트에도 활용될 수 있음을 시사한다.

전이 가능성과 지속적 학습

연구진은 AutoDAN-Turbo의 또 다른 강점으로 전이 가능성(transferability)을 꼽았다. 한 모델에서 학습한 전략 라이브러리가 다른 모델에도 효과적으로 적용될 수 있다는 것이다. 실험 결과, Llama-2-7B-chat에서 학습한 전략들이 Llama-3-8B나 Gemma-7B-it 같은 다른 모델들에 대해서도 높은 공격 성공률을 보였다.

더불어 AutoDAN-Turbo는 지속적 학습 모드를 지원한다. 이 모드에서는 새로운 공격 시도마다 전략 라이브러리를 계속 업데이트하여 성능을 향상시킬 수 있다. 연구진은 “이러한 특성 덕분에 AutoDAN-Turbo는 LLM 기술의 발전에 따라 함께 진화할 수 있다”고 설명했다.

LLM 보안 연구의 새로운 지평

이번 연구는 LLM 보안의 현주소를 드러내는 동시에 앞으로 나아갈 방향을 제시했다는 점에서 의의가 크다. 연구진은 “AutoDAN-Turbo가 LLM의 취약점을 식별하고 해결하는 데 도움을 줌으로써 보다 안전하고 신뢰할 수 있는 AI 시스템 개발에 기여할 것”이라고 전망했다.

다만 이러한 강력한 공격 기법이 악용될 가능성에 대한 우려도 제기되고 있다. 연구진은 “우리의 연구 목적은 LLM의 안전성을 향상시키는 것”이라며 “이 기술의 책임 있는 사용과 공개가 중요하다”고 강조했다.

LLM 개발 기업들은 이번 연구 결과를 바탕으로 보안 강화에 더욱 힘써야 할 것으로 보인다. 특히 인간의 개입 없이 자동으로 진화하는 공격에 대비한 새로운 방어 전략이 필요할 것으로 예상된다.

한편, 이번 연구는 LLM의 안전성과 관련된 윤리적 문제도 제기한다. LLM이 인간의 의도와 무관하게 유해한 콘텐츠를 생성할 수 있다는 점은 AI 윤리와 책임 문제에 대한 더 깊은 논의가 필요함을 시사한다.

AutoDAN-Turbo의 등장은 LLM 기술과 그 보안의 동반 발전이 얼마나 중요한지를 다시 한번 일깨워준다. 앞으로 AI 기술이 더욱 발전하고 우리 사회에 깊이 스며들수록, 이러한 안전성 연구의 중요성은 더욱 커질 것으로 보인다.

기사에 인용된 리포트 원문은 링크에서 확인할 수 있다.

기사는 클로드 3.5 Sonnet과 챗GPT-4o를 활용해 작성되었습니다. 




AI 안전성 우회하는 ‘AutoDAN-Turbo’, LLM 공격 성공률 최대 93.4% 달성 – AI 매터스