미국 카네기 멜론 대학교와 AI 회사 앤트로픽(Anthropic)이 함께 만든 특별한 연구가 화제다. 연구팀은 대규모 언어모델이 실제로 컴퓨터 해킹을 할 수 있는지 알아보기 위해 ‘MHBench’라는 가상의 해킹 연습장을 만들었다. 이 연습장에는 25개에서 50개의 가짜 컴퓨터가 연결된 10개의 서로 다른 네트워크가 있다.
이 가상 환경은 단순한 연습용이 아니다. 실제로 일어났던 대형 해킹 사건들을 그대로 재현했다. 2017년 미국 신용평가회사 이퀴팩스에서 개인정보가 털린 사건과 2021년 미국 송유관 회사인 콜로니얼 파이프라인이 해킹당한 사건을 똑같이 만들어 놓았다. 이퀴팩스 환경에서는 48개의 데이터베이스에서 정보를 빼내야 하고, 콜로니얼 파이프라인 환경에서는 15개의 중요한 제어 장치에 접근해야 한다.
GPT-4o, 제미나이, 클로드도 완전 실패… 예상보다 형편없는 결과
연구팀은 현재 가장 똑똑하다고 알려진 대규모 언어모델들을 테스트했다. GPT-4o, 제미나이 2.5 프로(Gemini 2.5 Pro), 소넷 3.7 싱킹(Sonnet 3.7 Thinking) 등 최신 모델들을 동원했다. 심지어 펜테스트GPT(PentestGPT)와 사이버섹이발3(CyberSecEval3) 같은 해킹 전문 도구까지 사용해서 최상의 조건을 만들어 줬다.
하지만 결과는 충격적이었다. 이 똑똑한 대규모 언어모델들은 단 하나의 복잡한 해킹도 끝까지 완성하지 못했다. 오직 소넷 3.7 싱킹만이 4계층 체인 환경에서 25개 파일 중 11개를 빼내는 부분적 성공을 거뒀을 뿐이다. 연구팀이 공격 그래프를 통해 자세히 분석해보니 대규모 언어모델들이 두 가지 큰 실수를 반복했다. 첫 번째는 관련 없는 명령어를 너무 많이 입력한다는 것이다. 전체 명령어의 47-90%가 해킹 목표와 전혀 상관없는 내용이었다. 두 번째는 올바른 명령어를 입력해도 잘못된 매개변수나 구문 오류 때문에 6-41%가 실행에 실패했다는 점이다.
‘Incalmo’ 등장… 대규모 언어모델에게 해킹 비서를 붙여주다
이 문제를 해결하기 위해 연구팀이 만든 것이 바로 ‘Incalmo(인칼모)’다. 이는 대규모 언어모델과 실제 네트워크 환경 사이의 고수준 추상화 계층이다. 기존에는 대규모 언어모델이 복잡한 셸 명령어를 직접 입력해야 했다면, 이제는 간단한 고수준 작업만 지시하면 된다. Incalmo는 MITRE ATT&CK 프레임워크에서 영감을 받은 5가지 고수준 액션을 제공한다. 네트워크 스캔(Scan), 측면 이동(LateralMove), 권한 상승(EscalatePrivilege), 정보 발견(FindInformation), 데이터 탈취(ExfiltrateData) 등이다. 대규모 언어모델이 이런 간단한 지시를 내리면, Incalmo의 전문 에이전트가 이를 구체적인 셸 명령어로 변환해서 실행한다.
예를 들어, 대규모 언어모델이 “LateralMove(source_host=kali_host, target_host=webserver)”라고 입력하면, Incalmo가 자동으로 취약점 데이터베이스에서 적절한 익스플로잇을 찾아 실행한다. 이렇게 계획 수립과 실행을 완전히 분리한 것이 Incalmo의 핵심 아이디어다.
10곳 중 9곳 침입 성공, 이퀴팩스 재현에서는 54분 만에 완전 해킹
Incalmo를 사용한 결과는 놀라웠다. 기존에는 아무것도 성공하지 못했던 대규모 언어모델들이 갑자기 대부분의 해킹에 성공하기 시작했다. 10개의 가상 네트워크 중 9곳에서 부분적 성공을, 5곳에서는 완전한 성공을 달성했다. 가장 인상적인 사례는 이퀴팩스 재현 실험이었다. 소넷 3.5는 단 54분 만에 48개의 데이터베이스에서 모든 정보를 빼내는 데 성공했다. 연구팀이 제시한 공격 경로 상태의 99% 이상을 달성한 것이다.
더 놀라운 것은 상대적으로 성능이 떨어지는 작은 대규모 언어모델들도 Incalmo의 도움을 받으면 큰 모델보다 더 좋은 결과를 낸다는 점이었다. 하이쿠 3.5(Haiku 3.5), 제미나이 2 플래시(Gemini 2 Flash), GPT-4o 미니 같은 소형 모델들도 Incalmo와 함께 사용했을 때 10개 환경 중 5개에서 완전한 성공을 거뒀다. 이는 Incalmo 없이는 단 하나의 환경에서도 완전 성공하지 못했던 대형 모델들보다 훨씬 우수한 성과다.
비용도 놀랍도록 저렴했다. 가장 복잡한 해킹도 소넷 3.5를 사용했을 때 최대 589만 7천 개의 입력 토큰과 6만 개의 출력 토큰으로 약 15달러의 비용이 들었을 뿐이다. 제미나이 2 플래시의 경우 최대 118만 9천 개의 입력 토큰과 1만 900개의 출력 토큰을 사용해 구글의 무료 사용량 범위 내에서도 실행 가능했다.
FAQ
Q: 일반인도 이런 도구를 사용할 수 있나요?
A: 현재는 연구 목적으로만 공개되며, MHBench와 Incalmo는 연구 커뮤니티에서만 사용할 수 있습니다. 또한 내장된 익스플로잇 데이터베이스는 MHBench 환경의 취약점만 포함하도록 제한되어 있습니다.
Q: 대규모 언어모델이 해킹을 못하는 이유는 뭔가요?
A: 해킹에는 수많은 복잡한 명령어를 정확한 순서로 실행해야 하는데, 대규모 언어모델이 관련 없는 명령어를 많이 생성하거나 올바른 명령어도 잘못된 매개변수로 실행하면 전체가 실패합니다. Incalmo는 이런 복잡한 부분을 전문 에이전트가 대신 처리하도록 해서 성공률을 크게 높였습니다.
Q: 앞으로 모든 해킹이 AI로 이뤄질까요?
A: 아직은 제한적입니다. 이 연구는 알려진 취약점만 포함된 가상 환경에서만 테스트됐고, 윈도우 시스템은 포함되지 않았습니다. 하지만 MHBench는 확장 가능하도록 설계되어 앞으로 더 다양한 환경과 새로운 도전 과제들이 추가될 예정입니다.
해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.
논문 명: On the Feasibility of Using LLMs to Autonomously Execute Multi-host Network Attacks
이미지 출처: 이디오그램 생성
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.